論文の概要: Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model
- arxiv url: http://arxiv.org/abs/2602.04774v1
- Date: Wed, 04 Feb 2026 17:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.651605
- Title: Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model
- Title(参考訳): ランダム特徴量モデルのための最適学習率スケジューリングとスケーリング法則の理論
- Authors: Blake Bordelon, Francesco Mori,
- Abstract要約: 勾配降下学習モデル(SGD)の最適学習率スケジュールの解法モデルについて検討する。
ハードフェーズでは、最適スケジュールはウォームアップ安定デカイに似ており、初期学習レートは一定($T$)で、トレーニングステップの消滅分だけ実行されます。
我々のモデルは、簡単かつ困難な状況下での計算-最適スケーリング法則(モデルサイズとトレーニングステップが選択される)も予測します。
- 参考スコア(独自算出の注目度): 19.00191673972499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Setting the learning rate for a deep learning model is a critical part of successful training, yet choosing this hyperparameter is often done empirically with trial and error. In this work, we explore a solvable model of optimal learning rate schedules for a powerlaw random feature model trained with stochastic gradient descent (SGD). We consider the optimal schedule $η_T^\star(t)$ where $t$ is the current iterate and $T$ is the total training horizon. This schedule is computed both numerically and analytically (when possible) using optimal control methods. Our analysis reveals two regimes which we term the easy phase and hard phase. In the easy phase the optimal schedule is a polynomial decay $η_T^\star(t) \simeq T^{-ξ} (1-t/T)^δ$ where $ξ$ and $δ$ depend on the properties of the features and task. In the hard phase, the optimal schedule resembles warmup-stable-decay with constant (in $T$) initial learning rate and annealing performed over a vanishing (in $T$) fraction of training steps. We investigate joint optimization of learning rate and batch size, identifying a degenerate optimality condition. Our model also predicts the compute-optimal scaling laws (where model size and training steps are chosen optimally) in both easy and hard regimes. Going beyond SGD, we consider optimal schedules for the momentum $β(t)$, where speedups in the hard phase are possible. We compare our optimal schedule to various benchmarks in our task including (1) optimal constant learning rates $η_T(t) \sim T^{-ξ}$ (2) optimal power laws $η_T(t) \sim T^{-ξ} t^{-χ}$, finding that our schedule achieves better rates than either of these. Our theory suggests that learning rate transfer across training horizon depends on the structure of the model and task. We explore these ideas in simple experimental pretraining setups.
- Abstract(参考訳): ディープラーニングモデルに対する学習率の設定は、トレーニングの成功の重要な部分であるが、このハイパーパラメータの選択は、試行錯誤によって経験的に行われることが多い。
本研究では,確率勾配勾配 (SGD) で学習したパワーローランダム特徴量モデルに対する最適学習率スケジュールの解法モデルについて検討する。
最適なスケジュール $η_T^\star(t)$ を考えると、$t$ は現在のイテレーションであり、$T$ はトレーニング全体の水平線である。
このスケジュールは最適制御法を用いて数値的にも解析的にも(可能であれば)計算される。
分析の結果, 簡単な相と硬相という2つの状態が明らかになった。
簡単な位相では、最適スケジュールは多項式崩壊 $η_T^\star(t) \simeq T^{->} (1-t/T)^δ$ である。
ハードフェーズでは、最適スケジュールはウォームアップ安定デカイに似ているが、初期学習率($T$)は一定であり、トレーニングステップの終了($T$)分でアニールされる。
本稿では,学習率とバッチサイズを共同で最適化し,退化最適条件を同定する。
また, 計算-最適スケーリング法則(モデルサイズとトレーニング手順が最適選択される)を, 容易かつ困難な状況下で予測する。
SGDを超えて、ハードフェーズでのスピードアップが可能な運動量$β(t)$の最適スケジュールを考える。
我々は,(1)最適定値学習率$η_T(t) \sim T^{-\}$(2)最適電力法則$η_T(t) \sim T^{-\} t^{-\}$を含む,タスクにおける最適スケジュールと様々なベンチマークを比較して,それらのどちらよりも優れたレートを達成することを発見した。
我々の理論は、訓練地平線を越えた学習率の伝達は、モデルとタスクの構造に依存することを示唆している。
我々はこれらのアイデアを簡単な実験的な事前学習設定で探求する。
関連論文リスト
- Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Eigencurve: Optimal Learning Rate Schedule for SGD on Quadratic
Objectives with Skewed Hessian Spectrums [26.44093918424658]
Eigencurveは、2次目的のSGDの最小収束率(定数まで)を達成することができる学習率スケジュールの最初のファミリーである。
実験結果から,Eigencurveは画像分類タスクにおいて,ステップ崩壊を著しく上回り得ることが示された。
実用的な応用のための2つの単純な学習率スケジューラは、Eigencurveを近似することができる。
論文 参考訳(メタデータ) (2021-10-27T01:17:53Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - REX: Revisiting Budgeted Training with an Improved Schedule [14.618325490983052]
本稿では,Reflectred Exponential(REX)スケジュールと呼ばれる新しいプロファイルとサンプリングレートの組み合わせを提案する。
REXは、いくつかの最先端の学習率スケジュールのパフォーマンスを一致または超えながら、低予算で線形スケジュールを上回ります。
論文 参考訳(メタデータ) (2021-07-09T04:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。