論文の概要: PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs
- arxiv url: http://arxiv.org/abs/2312.15230v3
- Date: Wed, 05 Feb 2025 15:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:25.587276
- Title: PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs
- Title(参考訳): PERP:LLM時代のプルー・リトレインパラダイムを再考する
- Authors: Max Zimmer, Megi Andoni, Christoph Spiegel, Sebastian Pokutta,
- Abstract要約: パラメータの小さなサブセットを更新すれば、刈り込み後の回復や性能向上に十分であることを示す。
標準のLoRAとは異なり、スパシティを損なうことなくアダプタを再びマージできる2つの新しいLoRA変種を導入する。
- 参考スコア(独自算出の注目度): 22.557682089926004
- License:
- Abstract: Neural Networks can be effectively compressed through pruning, significantly reducing storage and compute demands while maintaining predictive performance. Simple yet effective methods like magnitude pruning remove less important parameters and typically require a costly retraining procedure to restore performance. However, with the rise of LLMs, full retraining has become infeasible due to memory and compute constraints. This study challenges the practice of retraining all parameters by showing that updating a small subset of highly expressive parameters can suffice to recover or even enhance performance after pruning. Surprisingly, retraining just 0.01%-0.05% of the parameters in GPT-architectures can match the performance of full retraining across various sparsity levels, significantly reducing compute and memory requirements, and enabling retraining of models with up to 30 billion parameters on a single GPU in minutes. To bridge the gap to full retraining in the high sparsity regime, we introduce two novel LoRA variants that, unlike standard LoRA, allow merging adapters back without compromising sparsity. Going a step further, we show that these methods can be applied for memory-efficient layer-wise reconstruction, significantly enhancing state-of-the-art retraining-free methods like Wanda (Sun et al., 2023) and SparseGPT (Frantar & Alistarh, 2023). Our findings present a promising alternative to avoiding retraining.
- Abstract(参考訳): ニューラルネットワークは、プルーニングによって効果的に圧縮でき、予測性能を維持しながら、ストレージと計算要求を大幅に削減できる。
マグニチュードプルーニングのような単純で効果的な方法は、重要なパラメータを減らし、通常パフォーマンスを回復するためにコストのかかるトレーニング手順を必要とする。
しかし、LLMの台頭に伴い、メモリと計算の制約により、完全な再トレーニングは不可能になっている。
本研究は, 高い表現力を持つパラメータの小さなサブセットを更新すれば, 刈り取り後の回復や性能向上に十分であることを示すことによって, 全てのパラメータのトレーニングの実践に挑戦する。
驚くべきことに、GPTアーキテクチャのパラメータの0.01%-0.05%しか再トレーニングできないため、さまざまな分散レベルにわたる完全な再トレーニングのパフォーマンスにマッチし、計算とメモリの要求を著しく低減し、1つのGPU上で最大300億のパラメータを持つモデルの再トレーニングを数分で実現できる。
高疎性体制における完全再トレーニングのギャップを埋めるために、標準のLoRAとは異なり、スパシティを損なうことなくアダプタを再びマージできる2つの新しいLoRA変種を導入する。
さらに,これらの手法は,Wanda (Sun et al , 2023) やSparseGPT (Frantar & Alistarh, 2023) といった最先端のリトレーニングフリーな手法を著しく向上させ,メモリ効率のよい階層再構築に適用可能であることを示す。
再トレーニングを避けるための代替手段として,本研究は有望なものである。
関連論文リスト
- The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Reconstruct the Pruned Model without Any Retraining [23.235907813011174]
本稿では,線形補間に基づく適応再構成(LIAR)フレームワークを提案する。
LIARはバックプロパゲーションや再トレーニングを必要とせず、様々なプルーニング基準やモジュールと互換性がある。
GLUE, SQuAD, WikiText, 常識推論などのベンチマークによる評価の結果, LIARはパラメータの50%を除去しても, 98%の精度でBERTモデルを維持できることがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:30:44Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - PaReprop: Fast Parallelized Reversible Backpropagation [6.901732343162485]
非常にメモリ効率のよいトレーニングのためのエキサイティングな新しい方法として、可逆変換器が導入されている。
それらは、バックプロパゲーションフェーズにおけるアクティベーション再計算のさらなる計算オーバーヘッドを伴っている。
本稿では,高速並列化可逆バックプロパゲーションアルゴリズムPaRepropを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:59:32Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Pruning with Compensation: Efficient Channel Pruning for Deep
Convolutional Neural Networks [0.9712140341805068]
刈り込みDCNNのコストを大幅に削減する高効率刈り込み法を提案する。
本手法は,最先端のリトレーニングベースプルーニング法と競合するプルーニング性能を示す。
論文 参考訳(メタデータ) (2021-08-31T10:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。