論文の概要: Accurate Neural Network Pruning Requires Rethinking Sparse Optimization
- arxiv url: http://arxiv.org/abs/2308.02060v2
- Date: Fri, 8 Sep 2023 14:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 17:34:58.976685
- Title: Accurate Neural Network Pruning Requires Rethinking Sparse Optimization
- Title(参考訳): スパース最適化を再考する正確なニューラルネットワークプルーニング
- Authors: Denis Kuznedelev, Eldar Kurtic, Eugenia Iofinova, Elias Frantar,
Alexandra Peste, Dan Alistarh
- Abstract要約: 標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 87.90654868505518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining versions of deep neural networks that are both highly-accurate and
highly-sparse is one of the main challenges in the area of model compression,
and several high-performance pruning techniques have been investigated by the
community. Yet, much less is known about the interaction between sparsity and
the standard stochastic optimization techniques used for training sparse
networks, and most existing work uses standard dense schedules and
hyperparameters for training sparse networks. In this work, we examine the
impact of high sparsity on model training using the standard computer vision
and natural language processing sparsity benchmarks. We begin by showing that
using standard dense training recipes for sparse training is suboptimal, and
results in under-training. We provide new approaches for mitigating this issue
for both sparse pre-training of vision models (e.g. ResNet50/ImageNet) and
sparse fine-tuning of language models (e.g. BERT/GLUE), achieving
state-of-the-art results in both settings in the high-sparsity regime, and
providing detailed analyses for the difficulty of sparse training in both
scenarios. Our work sets a new threshold in terms of the accuracies that can be
achieved under high sparsity, and should inspire further research into
improving sparse model training, to reach higher accuracies under high
sparsity, but also to do so efficiently.
- Abstract(参考訳): モデル圧縮の分野では,高精度かつ疎結合なディープニューラルネットワークのバージョンが大きな課題のひとつであり,コミュニティによっていくつかの高性能プルーニング技術が研究されている。
しかし、スパースネットワークのトレーニングに使用されるスパース性と標準的な確率最適化技法の相互作用についてはあまり知られておらず、既存の研究の多くはスパースネットワークのトレーニングに標準密度のスケジュールとハイパーパラメータを使っている。
本研究では,標準コンピュータビジョンと自然言語処理スパルサリティベンチマークを用いて,モデル学習における高スパルサリティの影響について検討する。
まず、標準の濃密なトレーニングレシピをスパーストレーニングに使用するのが最適でないことを示すことから始める。
視覚モデルのスパース事前トレーニング(例: resnet50/imagenet)と、言語モデルのスパース微調整(例: bert/glue)の両方において、この問題を緩和するための新しいアプローチを提供し、高スパース体制における両方の設定において最先端の結果を実現し、両方のシナリオにおけるスパーストレーニングの難しさに関する詳細な分析を提供する。
我々の研究は、高い疎度で達成できる精度の新たなしきい値を設定し、スパースモデルのトレーニングを改善するためのさらなる研究を刺激し、高い疎度でより高い精度に到達させるとともに、より効率的に行うべきである。
関連論文リスト
- Ex Uno Pluria: Insights on Ensembling in Low Precision Number Systems [16.89998201009075]
ディープニューラルネットワークの組み立ては、一般化性能を改善することを約束している。
本稿では,低精度数値システム内の単一モデルからアンサンブル部材を導出する,低精度アンサンブルを提案する。
実験により,既存のアンサンブル手法と比較し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-11-22T11:18:20Z) - Training Bayesian Neural Networks with Sparse Subspace Variational
Inference [35.241207717307645]
Sparse Subspace Variational Inference (SSVI) は、トレーニングと推論フェーズを通じて一貫した高度にスパースなモデルを維持する最初の完全なスパースBNNフレームワークである。
実験の結果, SSVIは, スパースBNNの製作に新たなベンチマークを設定し, 例えば, モデルサイズを10~20倍圧縮し, 性能低下を3%以下とし, トレーニング中に最大20倍のFLOPを削減した。
論文 参考訳(メタデータ) (2024-02-16T19:15:49Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Sparsity Winning Twice: Better Robust Generalization from More Efficient
Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。
いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。
我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文 参考訳(メタデータ) (2022-02-20T15:52:08Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - LaplaceNet: A Hybrid Energy-Neural Model for Deep Semi-Supervised
Classification [0.0]
深層半教師付き分類の最近の進歩は、前例のない性能に達している。
モデル複雑性を大幅に低減した深層半教師付き分類のための新しいフレームワークであるLaplaceNetを提案する。
本モデルは,複数のベンチマークデータセットを用いて,半教師付き深層分類のための最先端手法より優れる。
論文 参考訳(メタデータ) (2021-06-08T17:09:28Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。