論文の概要: Scaling and Transferability of Annealing Strategies in Large Language Model Training
- arxiv url: http://arxiv.org/abs/2512.13705v1
- Date: Fri, 05 Dec 2025 16:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.75881
- Title: Scaling and Transferability of Annealing Strategies in Large Language Model Training
- Title(参考訳): 大規模言語モデル学習におけるアニーリング戦略のスケーリングと伝達性
- Authors: Siqi Wang, Zhengyu Chen, Teng Xiao, Zheqi Lv, Jinluan Yang, Xunliang Cai, Jingang Wang, Xiaomeng Li,
- Abstract要約: 我々はWarmup-Steady-Decay (WSD)スケジューラのアニーリング戦略を最適化するための予測フレームワークを改良する。
改良されたフレームワークは、トレーニングステップ、最大学習率、アニール動作を取り入れ、学習率スケジュールのより効率的な最適化を可能にする。
我々は,Dense と Mixture-of-Experts (MoE) モデルを用いて実験を行った。
- 参考スコア(独自算出の注目度): 59.443651879173025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning rate scheduling is crucial for training large language models, yet understanding the optimal annealing strategies across different model configurations remains challenging. In this work, we investigate the transferability of annealing dynamics in large language model training and refine a generalized predictive framework for optimizing annealing strategies under the Warmup-Steady-Decay (WSD) scheduler. Our improved framework incorporates training steps, maximum learning rate, and annealing behavior, enabling more efficient optimization of learning rate schedules. Our work provides a practical guidance for selecting optimal annealing strategies without exhaustive hyperparameter searches, demonstrating that smaller models can serve as reliable proxies for optimizing the training dynamics of larger models. We validate our findings on extensive experiments using both Dense and Mixture-of-Experts (MoE) models, demonstrating that optimal annealing ratios follow consistent patterns and can be transferred across different training configurations.
- Abstract(参考訳): 学習率のスケジューリングは、大きな言語モデルのトレーニングには不可欠だが、異なるモデル構成における最適なアニール戦略を理解することは依然として難しい。
本稿では,大規模言語モデル学習におけるアニーリングダイナミクスの伝達可能性について検討し,Warmup-Steady-Decay (WSD)スケジューラの下でのアニーリング戦略を最適化するための一般化予測フレームワークを改良する。
改良されたフレームワークは、トレーニングステップ、最大学習率、アニール動作を取り入れ、学習率スケジュールのより効率的な最適化を可能にする。
本研究は,大規模モデルのトレーニングダイナミクスを最適化するための信頼性の高いプロキシとして,より小型のモデルが有効であることを示すため,過パラメータ探索を徹底せずに最適焼鈍戦略を選択するための実用的なガイダンスを提供する。
我々は、DenseとMixture-of-Experts(MoE)モデルの両方を用いて広範な実験を行い、最適な焼鈍比が一貫したパターンに従っており、異なるトレーニング構成間で伝達可能であることを実証した。
関連論文リスト
- Implicit Modeling for Transferability Estimation of Vision Foundation Models [33.73062179456684]
Implicit Transferability Modeling (ITM)は、各モデルの固有のトランスファービリティを暗黙的にモデル化する新しいフレームワークである。
ITMは、安定性、有効性、効率の点で既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-27T09:21:19Z) - Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.0656076371565]
オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。
具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。
実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-10-27T05:47:48Z) - AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-17T22:18:24Z) - The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training [55.233765889424035]
本研究では,大規模モデル学習における学習速度のスケジュールが,非滑らかな最適化理論に縛られた凸と驚くほど類似していることを示す。
最適学習率で継続トレーニングのスケジュールを延長し、かつ、最適学習率をスケジュール間で転送することにより、124Mと210MのLlama型モデルをトレーニングするための顕著な改善を実現した。
論文 参考訳(メタデータ) (2025-01-31T08:55:56Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。