論文の概要: Data Distribution as a Lever for Guiding Optimizers Toward Superior Generalization in LLMs
- arxiv url: http://arxiv.org/abs/2602.00576v1
- Date: Sat, 31 Jan 2026 07:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.262401
- Title: Data Distribution as a Lever for Guiding Optimizers Toward Superior Generalization in LLMs
- Title(参考訳): LLMの高次一般化に向けた最適化のためのレバタとしてのデータ分布
- Authors: Tushaar Gangavarapu, Jiping Li, Christopher Vattheuer, Zhangyang Wang, Baharan Mirzasoleiman,
- Abstract要約: はじめに、単純さのバイアスが小さくなれば、より良い一般化がもたらされることを示す。
この知見に触発されて、訓練後のサンプルのアップサンプリングや強化によるトレーニングデータ分布がSBを減少させ、一般化の改善につながることを示す。
我々はPhi2-2.7B, Llama3.2-1B, Gemma3-1B-PT, Qwen3-0.6B-Base など複数の言語モデルの性能向上を図る。
- 参考スコア(独自算出の注目度): 60.68927774057402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can modifying the training data distribution guide optimizers toward solutions with improved generalization when training large language models (LLMs)? In this work, we theoretically analyze an in-context linear regression model with multi-head linear self-attention, and compare the training dynamics of two gradient based optimizers, namely gradient descent (GD) and sharpness-aware minimization (SAM), the latter exhibiting superior generalization properties but is prohibitively expensive for training even medium-sized LLMs. We show, for the first time, that SAM induces a lower simplicity bias (SB)-the tendency of an optimizer to preferentially learn simpler features earlier in training-and identify this reduction as a key factor underlying its improved generalization performance. Motivated by this insight, we demonstrate that altering the training data distribution by upsampling or augmenting examples learned later in training similarly reduces SB and leads to improved generalization. Our extensive experiments show that our strategy improves the performance of multiple LLMs-including Phi2-2.7B , Llama3.2-1B, Gemma3-1B-PT, and Qwen3-0.6B-Base-achieving relative accuracy gains up to 18% when fine-tuned with AdamW and Muon on mathematical reasoning tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングにおいて、一般化の改善によるソリューションに向けたトレーニングデータ分散ガイドの最適化は可能か?
本研究では,マルチヘッド線形自己アテンションを用いたコンテキスト内線形回帰モデルを理論的に解析し,勾配降下(GD)とシャープネス認識最小化(SAM)という2つの勾配に基づくオプティマイザのトレーニング力学と比較する。
本研究は,SAMがより簡易な特徴を優先的に学習するオプティマイザの傾向に対して,より簡潔なバイアス(SB)を生じさせることを初めて示したものである。
この知見に触発されて、訓練後のサンプルのアップサンプリングや増強によるトレーニングデータ分布の変化がSBを減少させ、一般化を向上させることを示した。
我々はPhi2-2.7B, Llama3.2-1B, Gemma3-1B-PT, Qwen3-0.6B-Baseを含む複数のLCMの性能向上を図った。
関連論文リスト
- Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization [12.472871440252105]
シャープネスを意識した最小化(SAM)は,特に初期の時代において,異なる特徴をより均一に学習することを示す。
i) トレーニングの早い段階でネットワーク出力に基づいてサンプルをクラスタリングし、(ii) 類似したネットワーク出力を持つサンプルのクラスタを特定し、(iii) 単純さのバイアスを軽減するために、残りのサンプルを1回だけアップサンプリングする手法を提案する。
論文 参考訳(メタデータ) (2024-04-27T03:30:50Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。