論文の概要: Scaling Law for Post-training after Model Pruning
- arxiv url: http://arxiv.org/abs/2411.10272v1
- Date: Fri, 15 Nov 2024 15:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:39:39.979560
- Title: Scaling Law for Post-training after Model Pruning
- Title(参考訳): モデルプランニング後のポストトレーニングのスケーリング法則
- Authors: Xiaodong Chen, Yuxuan Hu, Jing Zhang, Xiaokang Zhang, Cuiping Li, Hong Chen,
- Abstract要約: トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は、様々なドメインやタスクに広く採用されている。
これを軽減するため、高性能を維持しつつ、より効率的なモデルを作成するためにモデルプルーニング技術が開発されている。
本稿では,LLMの学習後要件について検討し,学習後データの最適量を決定するためのスケーリング法を提案する。
- 参考スコア(独自算出の注目度): 24.9935656519956
- License:
- Abstract: Large language models (LLMs) based on the Transformer architecture are widely employed across various domains and tasks. However, their increasing size imposes significant hardware demands, limiting practical deployment. To mitigate this, model pruning techniques have been developed to create more efficient models while maintaining high performance. Despite this, post-training after pruning is crucial for performance recovery and can be resource-intensive. This paper investigates the post-training requirements of pruned LLMs and introduces a scaling law to determine the optimal amount of post-training data. Post-training experiments with the Llama-3 and Qwen-2.5 series models, pruned using depth pruning, width pruning, and 2:4 semi-structured pruning, show that higher pruning ratios necessitate more post-training data for performance recovery, whereas larger LLMs require less. The proposed scaling law predicts a model's loss based on its parameter counts before and after pruning, as well as the post-training token counts. Furthermore, we find that the scaling law established from smaller LLMs can be reliably extrapolated to larger LLMs. This work provides valuable insights into the post-training of pruned LLMs and offers a practical scaling law for optimizing post-training data usage.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は、様々なドメインやタスクに広く採用されている。
しかし、そのサイズが大きくなると、ハードウェアの要求が大きくなり、実際のデプロイメントが制限される。
これを軽減するため、高性能を維持しつつ、より効率的なモデルを作成するためにモデルプルーニング技術が開発されている。
それにもかかわらず、プルーニング後のポストトレーニングはパフォーマンス回復に不可欠であり、リソース集約化が可能である。
本稿では,LLMの学習後要件について検討し,学習後データの最適量を決定するためのスケーリング法を提案する。
Llama-3 および Qwen-2.5 シリーズモデルを用いた後トレーニング実験では、深度刈り、幅刈り、および2:4の半構造化プルーニングを用い、高いプルーニング比がパフォーマンス回復により多くのポストトレーニングデータを必要とする一方で、より大きな LLM はより少ない。
提案法は,プルーニング前後のパラメータ数とポストトレーニング後のトークン数に基づいて,モデルの損失を予測する。
さらに,より小さなLSMから確立されたスケーリング法則は,より大きなLSMに対して確実に外挿可能であることがわかった。
この研究は、刈り取られたLLMのポストトレーニングに関する貴重な洞察を提供し、トレーニング後のデータ使用量を最適化するための実践的なスケーリング法を提供する。
関連論文リスト
- Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。