論文の概要: Advantageous Parameter Expansion Training Makes Better Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24241v1
- Date: Fri, 30 May 2025 06:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.792317
- Title: Advantageous Parameter Expansion Training Makes Better Large Language Models
- Title(参考訳): 隣接パラメータ拡張学習は、より優れた大言語モデルを実現する
- Authors: Naibin Gu, Yilong Chen, Zhenyu Zhang, Peng Fu, Zheng Lin, Shuohuan Wang, Yu Sun, Hua Wu, Weiping Wang, Haifeng Wang,
- Abstract要約: パラメータのサブセットは、有利なパラメータと呼ばれ、モデルの性能を決定する上で重要な役割を果たす。
本稿では,有利なパラメータを不利なパラメータの空間に段階的に拡張する手法であるAdvantageous Expansion Training (APEX)を提案する。
APEXは、トレーニングデータのわずか33%で、従来のトレーニングと同じ難易度レベルに達し、下流タスクに大幅な改善をもたらす。
- 参考スコア(独自算出の注目度): 50.82647159657912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although scaling up the number of trainable parameters in both pre-training and fine-tuning can effectively improve the performance of large language models, it also leads to increased computational overhead. When delving into the parameter difference, we find that a subset of parameters, termed advantageous parameters, plays a crucial role in determining model performance. Further analysis reveals that stronger models tend to possess more such parameters. In this paper, we propose Advantageous Parameter EXpansion Training (APEX), a method that progressively expands advantageous parameters into the space of disadvantageous ones, thereby increasing their proportion and enhancing training effectiveness. Further theoretical analysis from the perspective of matrix effective rank explains the performance gains of APEX. Extensive experiments on both instruction tuning and continued pre-training demonstrate that, in instruction tuning, APEX outperforms full-parameter tuning while using only 52% of the trainable parameters. In continued pre-training, APEX achieves the same perplexity level as conventional training with just 33% of the training data, and yields significant improvements on downstream tasks.
- Abstract(参考訳): 事前トレーニングと微調整の両方でトレーニング可能なパラメータの数をスケールアップすることは、大きな言語モデルの性能を効果的に向上させるが、計算オーバーヘッドも増大させる。
パラメータ差を探索すると、有利なパラメータと呼ばれるパラメータのサブセットが、モデルの性能を決定する上で重要な役割を果たすことが分かる。
さらなる分析により、より強いモデルはそのようなパラメータを持つ傾向があることが明らかになった。
本稿では,有利なパラメータを不利なパラメータの空間に段階的に拡張し,その比率を高め,トレーニングの有効性を高める手法であるAdvantageous Parameter Expansion Training (APEX)を提案する。
行列有効ランクの観点からのさらなる理論的解析はAPEXの性能向上を説明する。
命令チューニングと継続事前学習の両方に関する大規模な実験は、命令チューニングにおいて、APEXはトレーニング可能なパラメータの52%しか使用せず、フルパラメータチューニングよりも優れていることを示した。
継続的な事前トレーニングでは、APEXはトレーニングデータのわずか33%で従来のトレーニングと同じ複雑さレベルに達し、下流タスクに大幅な改善をもたらす。
関連論文リスト
- STEP: Staged Parameter-Efficient Pre-training for Large Language Models [16.77087225406202]
事前学習型大規模言語モデル(LLM)は、モデルパラメータの大きいため、メモリ上の大きな課題に直面している。
パラメータ効率のよい事前学習(STEP)を導入し,パラメータ効率の調整手法とモデル成長を統合した。
論文 参考訳(メタデータ) (2025-04-05T12:07:08Z) - A Hessian-informed hyperparameter optimization for differential learning rate [10.43211367988483]
Hessian-informed differential learning rate (Hi-DLR)は、異なるモデルパラメータに異なる学習率を適用する手法である。
トレーニング中の学習率を動的に決定することで,Hi-DLRは収束性を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-01-12T22:21:06Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Pre-training Everywhere: Parameter-Efficient Fine-Tuning for Medical Image Analysis via Target Parameter Pre-training [17.433808197776003]
ターゲット事前学習(TPP)に基づく簡易かつ効果的な微調整フレームワークを提案する。
TPPはPEFTの前にこれらのターゲットパラメータを事前訓練するための追加段階を含む。
TPPは既存のPEFT手法に容易に統合でき、性能が大幅に向上する。
論文 参考訳(メタデータ) (2024-08-27T12:48:46Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information [3.6859322366469933]
ReLoRAやGaLoreのような手法は、低ランクのサブスペースを更新することでこの問題に対処しようとしている。
本稿では,LoRAのトレーニング可能なパラメータを代替パラメータに頻繁にスムーズに置き換える,パラメータ効率のトレーニング手法であるSwitchLoRAを紹介する。
論文 参考訳(メタデータ) (2024-06-03T05:40:34Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference [63.52244442498831]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - Know Where You're Going: Meta-Learning for Parameter-Efficient
Fine-tuning [34.66092282348687]
そこで本研究では,微調整手法の究極的な選択を考慮に入れれば,パラメータ効率の高い微調整性能が向上することを示す。
パラメータ効率の良い微調整のための事前学習モデルを作成し,NERファインチューニングにおける最大1.7ポイントのゲインを得た。
論文 参考訳(メタデータ) (2022-05-25T02:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。