論文の概要: PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs
- arxiv url: http://arxiv.org/abs/2312.15230v1
- Date: Sat, 23 Dec 2023 11:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:59:33.848069
- Title: PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs
- Title(参考訳): perp: llms時代のprune-retrainパラダイム再考
- Authors: Max Zimmer, Megi Andoni, Christoph Spiegel, Sebastian Pokutta
- Abstract要約: イテレーティブ・マグニチュード・プルーニング(IMP)のような単純で効果的な手法は、重要でないパラメータを排除し、プルーニング後にパフォーマンスを回復するためにコストのかかるトレーニング手順を必要とする。
LLM(Large Language Models)の台頭により、メモリと計算の制約により、完全なリトレーニングが不可能になった。
非常に表現力のあるパラメータの小さなサブセットだけを更新するだけで、完全なリトレーニングよりもパフォーマンスを回復したり、改善したりするのに十分であることを示す。
- 参考スコア(独自算出の注目度): 24.64264715041198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Networks can be efficiently compressed through pruning, significantly
reducing storage and computational demands while maintaining predictive
performance. Simple yet effective methods like Iterative Magnitude Pruning
(IMP, Han et al., 2015) remove less important parameters and require a costly
retraining procedure to recover performance after pruning. However, with the
rise of Large Language Models (LLMs), full retraining has become infeasible due
to memory and compute constraints. In this study, we challenge the practice of
retraining all parameters by demonstrating that updating only a small subset of
highly expressive parameters is often sufficient to recover or even improve
performance compared to full retraining. Surprisingly, retraining as little as
0.27%-0.35% of the parameters of GPT-architectures (OPT-2.7B/6.7B/13B/30B)
achieves comparable performance to One Shot IMP across various sparsity levels.
Our method, Parameter-Efficient Retraining after Pruning (PERP), drastically
reduces compute and memory demands, enabling pruning and retraining of up to 30
billion parameter models on a single NVIDIA A100 GPU within minutes. Despite
magnitude pruning being considered as unsuited for pruning LLMs, our findings
show that PERP positions it as a strong contender against state-of-the-art
retraining-free approaches such as Wanda (Sun et al., 2023) and SparseGPT
(Frantar & Alistarh, 2023), opening up a promising alternative to avoiding
retraining.
- Abstract(参考訳): ニューラルネットワークはプルーニングによって効率よく圧縮でき、予測性能を維持しながら、ストレージと計算要求を大幅に削減できる。
イテレーティブマグニチュードプルーニング(imp, han et al., 2015)のようなシンプルで効果的な方法は、重要なパラメータを少なくし、プルーニング後のパフォーマンスを回復するためにコストのかかる再トレーニング手順を必要とする。
しかし、LLM(Large Language Models)の台頭に伴い、メモリと計算の制約により、完全なリトレーニングが不可能になっている。
本研究では,高表現率パラメータの小さなサブセットだけを更新するだけで,完全なリトレーニングよりも性能を回復あるいは改善できることを示すことで,全てのパラメータをリトレーニングする実践に挑戦する。
驚いたことに、GPTアーキテクチャのパラメータ(OPT-2.7B/6.7B/13B/30B)の0.27%-0.35%しかリトレーニングを行ない、様々な範囲でOne Shot IMPに匹敵する性能を達成した。
提案手法は,Pruning after Pruning (PERP) によって計算およびメモリ要求を大幅に削減し,最大300億個のパラメータモデルを1つのNVIDIA A100 GPU上で数分でプルーニングおよび再トレーニングすることが可能となる。
大規模刈り込みはLLMの刈り取りに適していないと考えられるが,本研究は,Wanda (Sun et al., 2023) や SparseGPT (Frantar & Alistarh, 2023) などの最先端のリトレーニングフリーアプローチに対して,PERPが強力な競合相手として位置づけることを示し,再トレーニングを避けるための有望な代替手段を開拓した。
関連論文リスト
- The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Reconstruct the Pruned Model without Any Retraining [23.235907813011174]
本稿では,線形補間に基づく適応再構成(LIAR)フレームワークを提案する。
LIARはバックプロパゲーションや再トレーニングを必要とせず、様々なプルーニング基準やモジュールと互換性がある。
GLUE, SQuAD, WikiText, 常識推論などのベンチマークによる評価の結果, LIARはパラメータの50%を除去しても, 98%の精度でBERTモデルを維持できることがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:30:44Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - PaReprop: Fast Parallelized Reversible Backpropagation [6.901732343162485]
非常にメモリ効率のよいトレーニングのためのエキサイティングな新しい方法として、可逆変換器が導入されている。
それらは、バックプロパゲーションフェーズにおけるアクティベーション再計算のさらなる計算オーバーヘッドを伴っている。
本稿では,高速並列化可逆バックプロパゲーションアルゴリズムPaRepropを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:59:32Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Pruning with Compensation: Efficient Channel Pruning for Deep
Convolutional Neural Networks [0.9712140341805068]
刈り込みDCNNのコストを大幅に削減する高効率刈り込み法を提案する。
本手法は,最先端のリトレーニングベースプルーニング法と競合するプルーニング性能を示す。
論文 参考訳(メタデータ) (2021-08-31T10:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。