論文の概要: What do near-optimal learning rate schedules look like?
- arxiv url: http://arxiv.org/abs/2603.10301v1
- Date: Wed, 11 Mar 2026 00:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.736787
- Title: What do near-optimal learning rate schedules look like?
- Title(参考訳): ほぼ最適学習率のスケジュールはどのようなものか?
- Authors: Hiroki Naganuma, Atish Agarwala, Priya Kasimbeg, George E. Dahl,
- Abstract要約: パラメータ化されたスケジュールファミリ内で最適な形状を求めるための探索手順を設計する。
この結果は、ニューラルネットワークの深層学習における、ほぼ最適スケジュール形状に関する最も包括的な結果を示す。
- 参考スコア(独自算出の注目度): 10.511909112011834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A basic unanswered question in neural network training is: what is the best learning rate schedule shape for a given workload? The choice of learning rate schedule is a key factor in the success or failure of the training process, but beyond having some kind of warmup and decay, there is no consensus on what makes a good schedule shape. To answer this question, we designed a search procedure to find the best shapes within a parameterized schedule family. Our approach factors out the schedule shape from the base learning rate, which otherwise would dominate cross-schedule comparisons. We applied our search procedure to a variety of schedule families on three workloads: linear regression, image classification on CIFAR-10, and small-scale language modeling on Wikitext103. We showed that our search procedure indeed generally found near-optimal schedules. We found that warmup and decay are robust features of good schedules, and that commonly used schedule families are not optimal on these workloads. Finally, we explored how the outputs of our shape search depend on other optimization hyperparameters, and found that weight decay can have a strong effect on the optimal schedule shape. To the best of our knowledge, our results represent the most comprehensive results on near-optimal schedule shapes for deep neural network training, to date.
- Abstract(参考訳): ニューラルネットワークトレーニングにおける基本的な疑問は、与えられたワークロードに最適な学習率スケジュール形状は何か、ということだ。
学習率のスケジュールの選択は、トレーニングプロセスの成功または失敗の重要な要因であるが、ある種のウォームアップと崩壊の他に、何が良いスケジュールになるかについてのコンセンサスはない。
そこで本研究では,パラメータ化されたスケジュールファミリ内の最適な形状を見つけるための探索手順を考案した。
提案手法は,基本学習率からスケジュール形状を導出し,それ以外はスケジュール間比較が支配的となる。
我々は,線形回帰,CIFAR-10の画像分類,Wikitext103での小規模言語モデリングの3つの作業に対して,探索手順を各種スケジュールファミリに適用した。
その結果,検索手順は概ねほぼ最適であることがわかった。
ウォームアップと崩壊は良いスケジュールの堅牢な特徴であり、一般的に使用されるスケジュールファミリはこれらのワークロードでは最適ではないことがわかった。
最後に、形状探索の出力が他の最適化ハイパーパラメータにどのように依存するかを調べた結果、重量減衰が最適スケジュール形状に強い影響を与えることが判明した。
我々の知る限りでは、我々の結果は、現在までのディープニューラルネットワークトレーニングにおいて、ほぼ最適なスケジュール形状に関する最も包括的な結果を表している。
関連論文リスト
- Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model [19.00191673972499]
勾配降下学習モデル(SGD)の最適学習率スケジュールの解法モデルについて検討する。
ハードフェーズでは、最適スケジュールはウォームアップ安定デカイに似ており、初期学習レートは一定($T$)で、トレーニングステップの消滅分だけ実行されます。
我々のモデルは、簡単かつ困難な状況下での計算-最適スケーリング法則(モデルサイズとトレーニングステップが選択される)も予測します。
論文 参考訳(メタデータ) (2026-02-04T17:11:36Z) - Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging [70.05077723711618]
本研究では, 1-32xChinchillaスケールで学習した言語モデルが時間とともに減衰し, 問題の発生源とキャパシティ条件によって減衰速度が決定されることを示した。
以上の結果から,重み付き平均化と地平線なしのステップサイズを組み合わせることで,大規模言語モデルの事前学習におけるコサイン学習率のスケジュールに代わる実用的で効果的な選択肢が得られることが示唆された。
論文 参考訳(メタデータ) (2026-02-03T16:24:05Z) - Dynamics of Learning: Generative Schedules from Latent ODEs [0.14323566945483496]
ニューラルネットワークのトレーニング性能を動的システムとしてモデル化する新しい学習率スケジューラを提案する。
本手法は計算効率が高く,一般化に依存しないものであり,ML実験追跡プラットフォーム上に容易に階層化することができる。
論文 参考訳(メタデータ) (2025-09-27T02:20:18Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - The Road Less Scheduled [45.01813613035411]
最適化停止ステップTの仕様を必要としない既存の学習率スケジュールは、Tに依存する学習率スケジュールにより大幅に改善される。
本稿では,スケジュールを全面的に活用することで,この停止時間を回避するアプローチを提案する。
我々のスケジュール自由アプローチは運動量を持つ標準スケジュールに余分なハイパーパラメータを導入しない。
論文 参考訳(メタデータ) (2024-05-24T16:20:46Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。