論文の概要: Optimal Learning-Rate Schedules under Functional Scaling Laws: Power Decay and Warmup-Stable-Decay
- arxiv url: http://arxiv.org/abs/2602.06797v1
- Date: Fri, 06 Feb 2026 15:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.459272
- Title: Optimal Learning-Rate Schedules under Functional Scaling Laws: Power Decay and Warmup-Stable-Decay
- Title(参考訳): 機能スケーリング法則に基づく最適学習率スケジューリング:パワーダウンとワームアップ安定デカイ
- Authors: Binghui Li, Zilin Wang, Fengling Chen, Shiyang Zhao, Ruiheng Zheng, Lei Wu,
- Abstract要約: 機能的スケーリング法則の下で、最適学習率スケジュール(LRS)について検討する。
LRSは線形回帰と大規模言語モデル(LLM)の事前学習の損失ダイナミクスを正確にモデル化する。
我々は,ピーク学習率のみを調整した最適な形状固定スケジュールを解析する。
- 参考スコア(独自算出の注目度): 9.371921537573346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study optimal learning-rate schedules (LRSs) under the functional scaling law (FSL) framework introduced in Li et al. (2025), which accurately models the loss dynamics of both linear regression and large language model (LLM) pre-training. Within FSL, loss dynamics are governed by two exponents: a source exponent $s>0$ controlling the rate of signal learning, and a capacity exponent $β>1$ determining the rate of noise forgetting. Focusing on a fixed training horizon $N$, we derive the optimal LRSs and reveal a sharp phase transition. In the easy-task regime $s \ge 1 - 1/β$, the optimal schedule follows a power decay to zero, $η^*(z) = η_{\mathrm{peak}}(1 - z/N)^{2β- 1}$, where the peak learning rate scales as $η_{\mathrm{peak}} \eqsim N^{-ν}$ for an explicit exponent $ν= ν(s,β)$. In contrast, in the hard-task regime $s < 1 - 1/β$, the optimal LRS exhibits a warmup-stable-decay (WSD) (Hu et al. (2024)) structure: it maintains the largest admissible learning rate for most of training and decays only near the end, with the decay phase occupying a vanishing fraction of the horizon. We further analyze optimal shape-fixed schedules, where only the peak learning rate is tuned -- a strategy widely adopted in practiceand characterize their strengths and intrinsic limitations. This yields a principled evaluation of commonly used schedules such as cosine and linear decay. Finally, we apply the power-decay LRS to one-pass stochastic gradient descent (SGD) for kernel regression and show the last iterate attains the exact minimax-optimal rate, eliminating the logarithmic suboptimality present in prior analyses. Numerical experiments corroborate our theoretical predictions.
- Abstract(参考訳): 線形回帰モデルと大規模言語モデル(LLM)事前学習の損失ダイナミクスを正確にモデル化するLi et al (2025)で導入された関数スケーリング法(FSL)フレームワークの下で、最適学習率スケジュール(LRS)について検討する。
FSLでは、損失ダイナミクスは、信号学習率を制御するソース指数$s>0$と、ノイズ忘れ率を決定するキャパシティ指数$β>1$の2つの指数によって制御される。
固定トレーニングの地平線($N$)に焦点をあてて、最適なLSSを導出し、鋭い位相遷移を明らかにする。
簡単なタスク体制の $s \ge 1 - 1/β$ において、最適スケジュールは 0 へのパワー崩壊、$η^*(z) = η_{\mathrm{peak}}(1 - z/N)^{2β-1}$ に従い、このピーク学習率は、明示的な指数 $ν= ν(s,β)$ に対して $η_{\mathrm{peak}} \eqsim N^{-ν}$ としてスケールする。
対照的に、ハードタスク状態 $s < 1 - 1/β$ では、最適 LRS はウォームアップ安定デカイ (WSD) (Hu et al (2024)) 構造を示しており、ほとんどのトレーニングと崩壊において最大の許容学習率を維持しており、崩壊相は水平線の消滅分数を占める。
さらに、ピーク学習率のみを調整した最適な形状固定スケジュールを解析し、その強みと本質的な制約を特徴付ける戦略を実践的に広く採用する。
これにより、コサインや線形減衰のようなよく使われるスケジュールの原則的評価が得られる。
最後に,1パス確率勾配勾配勾配(SGD)にパワーデカイRSを適用し,前処理で発生する対数的準最適性を排除した。
数値実験は我々の理論予測を裏付ける。
関連論文リスト
- Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model [19.00191673972499]
勾配降下学習モデル(SGD)の最適学習率スケジュールの解法モデルについて検討する。
ハードフェーズでは、最適スケジュールはウォームアップ安定デカイに似ており、初期学習レートは一定($T$)で、トレーニングステップの消滅分だけ実行されます。
我々のモデルは、簡単かつ困難な状況下での計算-最適スケーリング法則(モデルサイズとトレーニングステップが選択される)も予測します。
論文 参考訳(メタデータ) (2026-02-04T17:11:36Z) - Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules [9.332823269318842]
スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - Benefits of Learning Rate Annealing for Tuning-Robustness in Stochastic Optimization [29.174036532175855]
勾配法における学習速度は、標準グリッドサーチによるチューニングに費用がかかることで悪名高い超特異性である。
我々は,広く使用されているコサインスケジュールなど,学習率を0に低下させる学習速度アニール方式の理論的利点を同定する。
論文 参考訳(メタデータ) (2025-03-12T14:06:34Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Biased Gradient Estimate with Drastic Variance Reduction for Meta
Reinforcement Learning [25.639542287310768]
偏りのある勾配推定はほとんど常に実践されるが、メタRLの先行理論は偏りのない勾配推定の下でのみ収束を確立する。
線形化スコア関数 (LSF) 勾配推定法を提案し, バイアスが$mathcalO (1/sqrtN)$, 分散が$mathcalO (1/N)$である。
定常点への収束に関するメタRLのLSF勾配推定の理論的保証を確立し、N$が大きければ以前の作業よりもN$への依存性がよいことを示す。
論文 参考訳(メタデータ) (2021-12-14T12:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。