論文の概要: Schedulers for Schedule-free: Theoretically inspired hyperparameters
- arxiv url: http://arxiv.org/abs/2511.07767v1
- Date: Wed, 12 Nov 2025 01:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.467414
- Title: Schedulers for Schedule-free: Theoretically inspired hyperparameters
- Title(参考訳): スケジュールフリーのスケジューリング:理論的にインスパイアされたハイパーパラメータ
- Authors: Yuen-Man Pun, Matthew Buchholz, Robert M. Gower,
- Abstract要約: 我々は,任意のスケジューラを許すために,スケジュールフリーの最終定値収束理論を拡張する方法を示す。
次に、凸性を用いて、スケジュールなしの新しい適応型Polyak学習率スケジュールを設計する。
- 参考スコア(独自算出の注目度): 9.569316316728903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed schedule-free method has been shown to achieve strong performance when hyperparameter tuning is limited. The current theory for schedule-free only supports a constant learning rate, where-as the implementation used in practice uses a warm-up schedule. We show how to extend the last-iterate convergence theory of schedule-free to allow for any scheduler, and how the averaging parameter has to be updated as a function of the learning rate. We then perform experiments showing how our convergence theory has some predictive power with regards to practical executions on deep neural networks, despite that this theory relies on assuming convexity. When applied to the warmup-stable-decay (wsd) schedule, our theory shows the optimal convergence rate of $\mathcal{O}(1/\sqrt{T})$. We then use convexity to design a new adaptive Polyak learning rate schedule for schedule-free. We prove an optimal anytime last-iterate convergence for our new Polyak schedule, and show that it performs well compared to a number of baselines on a black-box model distillation task.
- Abstract(参考訳): 最近提案されたスケジュールなし手法は、ハイパーパラメータチューニングが制限された場合、高い性能を達成することが示されている。
現在のスケジュールフリーの理論は一定の学習率しかサポートしていないが、実際に使われている実装ではウォームアップスケジュールを使用している。
本研究では,スケジュールフリーの収束理論を拡張してスケジューラを許容する方法と,学習率の関数として平均パラメータをいかに更新するかを示す。
次に、我々は、この理論が凸性を想定しているにもかかわらず、ディープニューラルネットワーク上での実践的な実行に関して、収束理論が何らかの予測力を持つことを示す実験を行う。
ウォームアップ・stable-decay (wsd) スケジュールに適用すると、この理論は$\mathcal{O}(1/\sqrt{T})$の最適収束率を示す。
次に、凸性を用いて、スケジュールなしの新しい適応型Polyak学習率スケジュールを設計する。
我々は,新しいPolyakスケジュールにおいて,最適時定数収束を証明し,ブラックボックスモデルの蒸留作業における多くのベースラインと比較して良好な性能を示す。
関連論文リスト
- The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training [55.233765889424035]
本研究では,大規模モデル学習における学習速度のスケジュールが,非滑らかな最適化理論に縛られた凸と驚くほど類似していることを示す。
最適学習率で継続トレーニングのスケジュールを延長し、かつ、最適学習率をスケジュール間で転送することにより、124Mと210MのLlama型モデルをトレーニングするための顕著な改善を実現した。
論文 参考訳(メタデータ) (2025-01-31T08:55:56Z) - The Road Less Scheduled [45.01813613035411]
最適化停止ステップTの仕様を必要としない既存の学習率スケジュールは、Tに依存する学習率スケジュールにより大幅に改善される。
本稿では,スケジュールを全面的に活用することで,この停止時間を回避するアプローチを提案する。
我々のスケジュール自由アプローチは運動量を持つ標準スケジュールに余分なハイパーパラメータを導入しない。
論文 参考訳(メタデータ) (2024-05-24T16:20:46Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Eigencurve: Optimal Learning Rate Schedule for SGD on Quadratic
Objectives with Skewed Hessian Spectrums [26.44093918424658]
Eigencurveは、2次目的のSGDの最小収束率(定数まで)を達成することができる学習率スケジュールの最初のファミリーである。
実験結果から,Eigencurveは画像分類タスクにおいて,ステップ崩壊を著しく上回り得ることが示された。
実用的な応用のための2つの単純な学習率スケジューラは、Eigencurveを近似することができる。
論文 参考訳(メタデータ) (2021-10-27T01:17:53Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。