論文の概要: IDEA Prune: An Integrated Enlarge-and-Prune Pipeline in Generative Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2503.05920v1
- Date: Fri, 07 Mar 2025 20:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:19.505575
- Title: IDEA Prune: An Integrated Enlarge-and-Prune Pipeline in Generative Language Model Pretraining
- Title(参考訳): IDEA Prune: ジェネレーティブ言語モデルの事前トレーニングにおける拡張と更新のパイプラインの統合
- Authors: Yixiao Li, Xianzhi Du, Ajay Jaiswal, Tao Lei, Tuo Zhao, Chong Wang, Jianyu Wang,
- Abstract要約: 本稿では,モデルトレーニング,プルーニング,リカバリを併用した拡張・プルンパイプラインを提案する。
我々は2.8Bモデルから1.3Bへのプレトレーニングにおいて最大2Tトークンによる圧縮実験を行った。
これは、拡大されたモデルの事前学習のトークン効率に関する洞察を提供するだけでなく、刈り取られたモデルの優れた性能を達成するための統合されたアプローチを示す。
- 参考スコア(独自算出の注目度): 50.53912352342753
- License:
- Abstract: Recent advancements in large language models have intensified the need for efficient and deployable models within limited inference budgets. Structured pruning pipelines have shown promise in token efficiency compared to training target-size models from scratch. In this paper, we advocate incorporating enlarged model pretraining, which is often ignored in previous works, into pruning. We study the enlarge-and-prune pipeline as an integrated system to address two critical questions: whether it is worth pretraining an enlarged model even when the model is never deployed, and how to optimize the entire pipeline for better pruned models. We propose an integrated enlarge-and-prune pipeline, which combines enlarge model training, pruning, and recovery under a single cosine annealing learning rate schedule. This approach is further complemented by a novel iterative structured pruning method for gradual parameter removal. The proposed method helps to mitigate the knowledge loss caused by the rising learning rate in naive enlarge-and-prune pipelines and enable effective redistribution of model capacity among surviving neurons, facilitating smooth compression and enhanced performance. We conduct comprehensive experiments on compressing 2.8B models to 1.3B with up to 2T tokens in pretraining. It demonstrates the integrated approach not only provides insights into the token efficiency of enlarged model pretraining but also achieves superior performance of pruned models.
- Abstract(参考訳): 大規模言語モデルの最近の進歩により、限られた推論予算内で効率よくデプロイ可能なモデルの必要性が高まっている。
構造化プルーニングパイプラインは、目標サイズモデルをスクラッチからトレーニングするのと比較してトークン効率が保証されている。
本稿では,従来の研究では無視されることが多い拡張モデル事前学習をプルーニングに組み込むことを提唱する。
モデルがデプロイされない場合でも、拡張モデルを事前トレーニングする価値があるかどうか、より優れたプルーニングモデルのためにパイプライン全体を最適化する方法、という2つの重要な問題に対処する統合システムとして、スケール・アンド・プルーパイプラインについて検討する。
モデルトレーニング,プルーニング,リカバリを1つのコサインアニーリング学習スケジュールで組み合わせた拡張・プルーンパイプラインを提案する。
この手法は、漸進的パラメータ除去のための新しい反復的構造化プルーニング法によってさらに補完される。
提案手法は, ニューブ・アンド・プルーパイプラインにおける学習速度の上昇による知識損失を軽減し, 生き残ったニューロン間でモデルキャパシティを効果的に再分配し, 滑らかな圧縮と性能の向上を実現する。
我々は2.8Bモデルから1.3Bへのプレトレーニングにおける最大2Tトークンの圧縮に関する包括的な実験を行った。
これは、拡大されたモデルの事前学習のトークン効率に関する洞察を提供するだけでなく、刈り取られたモデルの優れた性能を達成するための統合されたアプローチを示す。
関連論文リスト
- MultiPruner: Balanced Structure Removal in Foundation Models [1.8434042562191815]
近年,大規模な事前学習モデル (LPM) を刈り取るための最先端手法として,トランスフォーマーにおける非臨界残留ブロックの非臨界除去がモデルサイズ削減に有効であることを実証している。
我々はBlockPrunerを拡張し、MultiPrunerを提案する。
論文 参考訳(メタデータ) (2025-01-17T04:24:31Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - PELA: Learning Parameter-Efficient Models with Low-Rank Approximation [16.9278983497498]
そこで本研究では,中間学習段階を導入することにより,事前学習モデルのパラメータ効率を向上させる手法を提案する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
論文 参考訳(メタデータ) (2023-10-16T07:17:33Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - Structural Pruning for Diffusion Models [65.02607075556742]
Diff-Pruningは、既存のものから軽量拡散モデルの学習に適した効率的な圧縮手法である。
複数のデータセットにまたがって実施した経験的評価は,提案手法の2つの利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-05-18T12:38:21Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。