論文の概要: Unveiling the Role of Learning Rate Schedules via Functional Scaling Laws
- arxiv url: http://arxiv.org/abs/2509.19189v2
- Date: Wed, 24 Sep 2025 05:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 11:55:19.850662
- Title: Unveiling the Role of Learning Rate Schedules via Functional Scaling Laws
- Title(参考訳): 関数的スケーリング法則による学習率スケジューリングの役割の解明
- Authors: Binghui Li, Fengling Chen, Zixun Huang, Lean Wang, Lei Wu,
- Abstract要約: スケーリング法は、大規模言語モデル(LLM)のトレーニングを導く上で、基礎的な役割を担っている。
本稿では,一般LSSの訓練過程における集団リスクの進化を特徴付ける機能スケーリング法を紹介する。
我々は、データ限定型と計算限定型の両方の条件下で、広く使われている3つのLSS(定数、指数減衰、ウォームアップ安定デカイ(WSD))を分析した。
- 参考スコア(独自算出の注目度): 9.332823269318842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws have played a cornerstone role in guiding the training of large language models (LLMs). However, most existing works on scaling laws primarily focus on the final-step loss, overlooking the loss dynamics during the training process and, crucially, the impact of learning rate schedule (LRS). In this paper, we aim to bridge this gap by studying a teacher-student kernel regression setup trained via online stochastic gradient descent (SGD). Leveraging a novel intrinsic time viewpoint and stochastic differential equation (SDE) modeling of SGD, we introduce the Functional Scaling Law (FSL), which characterizes the evolution of population risk during the training process for general LRSs. Remarkably, the impact of the LRSs is captured through an explicit convolution-type functional term, making their effects fully tractable. To illustrate the utility of FSL, we analyze three widely used LRSs -- constant, exponential decay, and warmup-stable-decay (WSD) -- under both data-limited and compute-limited regimes. We provide theoretical justification for widely adopted empirical practices in LLMs pre-training such as (i) higher-capacity models are more data- and compute-efficient; (ii) learning rate decay can improve training efficiency; (iii) WSD-like schedules can outperform direct-decay schedules. Lastly, we explore the practical relevance of FSL as a surrogate model for fitting, predicting and optimizing the loss curves in LLM pre-training, with experiments conducted across model sizes ranging from 0.1B to 1B parameters. We hope our FSL framework can deepen the understanding of LLM pre-training dynamics and provide insights for improving large-scale model training.
- Abstract(参考訳): スケーリング法則は、大規模言語モデル(LLM)のトレーニングを導く上で、基礎的な役割を担っている。
しかし、既存の法則のスケーリングに関するほとんどの研究は、主に最終段階の損失に焦点を合わせ、トレーニング過程における損失のダイナミクスを見越し、学習率スケジュール(LRS)の影響を重要視している。
本稿では,オンライン確率勾配勾配(SGD)を用いて学習した教師-学生のカーネル回帰設定を学習することで,このギャップを埋めることを目的とする。
本稿では,SGD の固有時間視点と確率微分方程式 (SDE) を応用し,一般 LRS の訓練過程における集団リスクの進化を特徴付ける機能スケーリング法 (FSL) を導入する。
顕著なことに、LSSの影響は明示的な畳み込み型機能的項によって捉えられ、その効果は完全に引き離される。
FSLの有用性を説明するために,データ制限と計算制限の両条件下で広く使用されている3つのLSS(定数,指数減衰,ウォームアップ安定デカイ(WSD))を解析した。
我々は,LLMの事前学習において広く採用されている経験的実践に対する理論的正当性を提供する。
(i)高容量モデルは、よりデータ的で、計算効率が高い。
(二)学習率の低下は訓練効率を向上させることができる。
三)WSD風のスケジュールは、直接遅延スケジュールを上回ることができる。
最後に, LLM事前学習における損失曲線の適合, 予測, 最適化のための代用モデルとしてのFSLの実用的妥当性について検討し, 0.1Bから1Bまでのモデルサイズで実験を行った。
我々のFSLフレームワークは、LLM事前学習のダイナミクスの理解を深め、大規模モデルトレーニングを改善するための洞察を得られることを願っている。
関連論文リスト
- Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training [16.736880202930482]
本研究では, 損失景観の「川」構造を, 崩壊相や補助平均化を伴わず, 効果的にナビゲート可能であることを示す。
本研究では,大きなバッチサイズにおいて,運動量の向上と性能向上を図ったSFの改良版を提案する。
論文 参考訳(メタデータ) (2025-07-14T00:54:48Z) - AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文 参考訳(メタデータ) (2025-02-17T18:45:25Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Temporal Scaling Law for Large Language Models [70.74571133406958]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。