論文の概要: How to Set the Learning Rate for Large-Scale Pre-training?
- arxiv url: http://arxiv.org/abs/2601.05049v1
- Date: Thu, 08 Jan 2026 15:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.26312
- Title: How to Set the Learning Rate for Large-Scale Pre-training?
- Title(参考訳): 大規模事前学習における学習率の設定法
- Authors: Yunhua Zhou, Shuhao Xing, Junhao Huang, Xipeng Qiu, Qipeng Guo,
- Abstract要約: 我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
- 参考スコア(独自算出の注目度): 73.03133634525635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal configuration of the learning rate (LR) is a fundamental yet formidable challenge in large-scale pre-training. Given the stringent trade-off between training costs and model performance, the pivotal question is whether the optimal LR can be accurately extrapolated from low-cost experiments. In this paper, we formalize this investigation into two distinct research paradigms: Fitting and Transfer. Within the Fitting Paradigm, we innovatively introduce a Scaling Law for search factor, effectively reducing the search complexity from O(n^3) to O(n*C_D*C_η) via predictive modeling. Within the Transfer Paradigm, we extend the principles of $μ$Transfer to the Mixture of Experts (MoE) architecture, broadening its applicability to encompass model depth, weight decay, and token horizons. By pushing the boundaries of existing hyperparameter research in terms of scale, we conduct a comprehensive comparison between these two paradigms. Our empirical results challenge the scalability of the widely adopted $μ$ Transfer in large-scale pre-training scenarios. Furthermore, we provide a rigorous analysis through the dual lenses of training stability and feature learning to elucidate the underlying reasons why module-wise parameter tuning underperforms in large-scale settings. This work offers systematic practical guidelines and a fresh theoretical perspective for optimizing industrial-level pre-training.
- Abstract(参考訳): 学習率(LR)の最適設定は、大規模事前学習の基本的な課題である。
トレーニングコストとモデル性能の厳密なトレードオフを考えると、最適なLRを低コスト実験から正確に外挿できるかどうかが重要な問題である。
本稿では,本研究を,フィッティングとトランスファーの2つの異なる研究パラダイムに分類する。
本稿では,探索係数のスケーリング法則を革新的に導入し,O(n^3)からO(n*C_D*C_η)への探索複雑性を予測モデルにより効果的に低減する。
Transfer Paradigm内では、$μ$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を網羅する適用性を広げる。
既存のハイパーパラメータ研究の境界をスケール的に推し進めることで、これらの2つのパラダイムを包括的に比較する。
我々の経験的結果は、大規模な事前学習シナリオにおいて広く採用されている$μ$ Transferのスケーラビリティに挑戦する。
さらに,訓練安定度と特徴学習の両レンズによる厳密な解析を行い,モジュールワイドパラメータチューニングが大規模設定で不十分な理由を解明する。
本研究は,産業レベルの事前訓練を最適化するための体系的な実践的ガイドラインと新たな理論的視点を提供する。
関連論文リスト
- A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models [3.0247776995428945]
大規模なAIトレーニングでは、Sparse Mixture-of-Experts(s-MoE)レイヤによって、トークン当たりのエキスパートの小さなサブセットのみを活性化することで、スケーリングが可能になる。
本稿では,ALF-LB (Auxiliary-Loss-Free Load Balancing) 法を理論的に解析する枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-03T16:00:02Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Provable Meta-Learning with Low-Rank Adaptations [37.120226706944926]
本稿では,PEFTをベースとしたメタラーニングフレームワークを導入し,未知のタスクに容易に適応できるモデルを学習する。
LoRAを用いた線形モデルでは、適応可能なパラメータの集合を見つけるのに標準再学習が確実に最適であることを示す。
我々は、これらの理論的洞察を、実データビジョンや言語タスクと同様に、合成データの実験を通じて検証する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Optimization Hyper-parameter Laws for Large Language Models [52.49860340549727]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。