論文の概要: PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs
- arxiv url: http://arxiv.org/abs/2312.15230v2
- Date: Tue, 13 Feb 2024 13:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:55:33.686921
- Title: PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs
- Title(参考訳): perp: llms時代のprune-retrainパラダイム再考
- Authors: Max Zimmer, Megi Andoni, Christoph Spiegel, Sebastian Pokutta
- Abstract要約: イテレーティブ・マグニチュード・プルーニング(IMP)のような単純で効果的な手法は、重要でないパラメータを排除し、プルーニング後にパフォーマンスを回復するためにコストのかかるトレーニング手順を必要とする。
LLM(Large Language Models)の台頭により、メモリと計算の制約により、完全なリトレーニングが不可能になった。
GPTアーキテクチャのパラメータの0.27%-0.35%しか再トレーニングを行ない、One Shotに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 24.64264715041198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Networks can be efficiently compressed through pruning, significantly
reducing storage and computational demands while maintaining predictive
performance. Simple yet effective methods like Iterative Magnitude Pruning
(IMP, Han et al., 2015) remove less important parameters and require a costly
retraining procedure to recover performance after pruning. However, with the
rise of Large Language Models (LLMs), full retraining has become infeasible due
to memory and compute constraints. In this study, we challenge the practice of
retraining all parameters by demonstrating that updating only a small subset of
highly expressive parameters is often sufficient to recover or even improve
performance compared to full retraining. Surprisingly, retraining as little as
0.27%-0.35% of the parameters of GPT-architectures achieves comparable
performance to One Shot IMP across various sparsity levels. Our approach,
Parameter-Efficient Retraining after Pruning (PERP), drastically reduces
compute and memory demands, enabling pruning and retraining of up to 30 billion
parameter models on a single NVIDIA A100 GPU within minutes. Despite magnitude
pruning being considered as unsuited for pruning LLMs, our findings show that
PERP positions it as a strong contender against state-of-the-art
retraining-free approaches such as Wanda (Sun et al., 2023) and SparseGPT
(Frantar & Alistarh, 2023), opening up a promising alternative to avoiding
retraining.
- Abstract(参考訳): ニューラルネットワークはプルーニングによって効率よく圧縮でき、予測性能を維持しながら、ストレージと計算要求を大幅に削減できる。
イテレーティブマグニチュードプルーニング(imp, han et al., 2015)のようなシンプルで効果的な方法は、重要なパラメータを少なくし、プルーニング後のパフォーマンスを回復するためにコストのかかる再トレーニング手順を必要とする。
しかし、LLM(Large Language Models)の台頭に伴い、メモリと計算の制約により、完全なリトレーニングが不可能になっている。
本研究では,高表現率パラメータの小さなサブセットだけを更新するだけで,完全なリトレーニングよりも性能を回復あるいは改善できることを示すことで,全てのパラメータをリトレーニングする実践に挑戦する。
驚くべきことに、GPTアーキテクチャのパラメータの0.27%-0.35%しか再トレーニングを行ない、様々な範囲でOne Shot IMPに匹敵するパフォーマンスを実現している。
我々のアプローチであるPERP(Parager-Efficient Retraining after Pruning)は、計算とメモリの要求を大幅に削減し、1つのNVIDIA A100 GPU上で最大300億のパラメータモデルのプルーニングと再トレーニングを可能にする。
大規模刈り込みはLLMの刈り取りに適していないと考えられるが,本研究は,Wanda (Sun et al., 2023) や SparseGPT (Frantar & Alistarh, 2023) などの最先端のリトレーニングフリーアプローチに対して,PERPが強力な競合相手として位置づけることを示し,再トレーニングを避けるための有望な代替手段を開拓した。
関連論文リスト
- SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference [63.52244442498831]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - PaReprop: Fast Parallelized Reversible Backpropagation [6.901732343162485]
非常にメモリ効率のよいトレーニングのためのエキサイティングな新しい方法として、可逆変換器が導入されている。
それらは、バックプロパゲーションフェーズにおけるアクティベーション再計算のさらなる計算オーバーヘッドを伴っている。
本稿では,高速並列化可逆バックプロパゲーションアルゴリズムPaRepropを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:59:32Z) - Learning a Consensus Sub-Network with Polarization Regularization and
One Pass Training [3.2214522506924093]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10 と CIFAR-100 を用いた結果,分類精度が1% 未満の深層ネットワークにおける接続の50%を除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Pruning with Compensation: Efficient Channel Pruning for Deep
Convolutional Neural Networks [0.9712140341805068]
刈り込みDCNNのコストを大幅に削減する高効率刈り込み法を提案する。
本手法は,最先端のリトレーニングベースプルーニング法と競合するプルーニング性能を示す。
論文 参考訳(メタデータ) (2021-08-31T10:17:36Z) - Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。
ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。
おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文 参考訳(メタデータ) (2021-06-19T02:09:25Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Pruning Filters while Training for Efficiently Optimizing Deep Learning
Networks [6.269700080380206]
深層ネットワークの重みを少なくするプルーニング技術が提案されている。
本研究では,訓練中に深層ネットワークのフィルタをプーンする動的プルーニング学習手法を提案する。
その結果, フィルタの50%をプルーニングすると, ほぼ精度の低下のない圧縮ネットワークが得られることがわかった。
論文 参考訳(メタデータ) (2020-03-05T18:05:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。