論文の概要: Schedulers for Schedule-free: Theoretically inspired hyperparameters
- arxiv url: http://arxiv.org/abs/2511.07767v1
- Date: Wed, 12 Nov 2025 01:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.467414
- Title: Schedulers for Schedule-free: Theoretically inspired hyperparameters
- Title(参考訳): スケジュールフリーのスケジューリング:理論的にインスパイアされたハイパーパラメータ
- Authors: Yuen-Man Pun, Matthew Buchholz, Robert M. Gower,
- Abstract要約: 我々は,任意のスケジューラを許すために,スケジュールフリーの最終定値収束理論を拡張する方法を示す。
次に、凸性を用いて、スケジュールなしの新しい適応型Polyak学習率スケジュールを設計する。
- 参考スコア(独自算出の注目度): 9.569316316728903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed schedule-free method has been shown to achieve strong performance when hyperparameter tuning is limited. The current theory for schedule-free only supports a constant learning rate, where-as the implementation used in practice uses a warm-up schedule. We show how to extend the last-iterate convergence theory of schedule-free to allow for any scheduler, and how the averaging parameter has to be updated as a function of the learning rate. We then perform experiments showing how our convergence theory has some predictive power with regards to practical executions on deep neural networks, despite that this theory relies on assuming convexity. When applied to the warmup-stable-decay (wsd) schedule, our theory shows the optimal convergence rate of $\mathcal{O}(1/\sqrt{T})$. We then use convexity to design a new adaptive Polyak learning rate schedule for schedule-free. We prove an optimal anytime last-iterate convergence for our new Polyak schedule, and show that it performs well compared to a number of baselines on a black-box model distillation task.
- Abstract(参考訳): 最近提案されたスケジュールなし手法は、ハイパーパラメータチューニングが制限された場合、高い性能を達成することが示されている。
現在のスケジュールフリーの理論は一定の学習率しかサポートしていないが、実際に使われている実装ではウォームアップスケジュールを使用している。
本研究では,スケジュールフリーの収束理論を拡張してスケジューラを許容する方法と,学習率の関数として平均パラメータをいかに更新するかを示す。
次に、我々は、この理論が凸性を想定しているにもかかわらず、ディープニューラルネットワーク上での実践的な実行に関して、収束理論が何らかの予測力を持つことを示す実験を行う。
ウォームアップ・stable-decay (wsd) スケジュールに適用すると、この理論は$\mathcal{O}(1/\sqrt{T})$の最適収束率を示す。
次に、凸性を用いて、スケジュールなしの新しい適応型Polyak学習率スケジュールを設計する。
我々は,新しいPolyakスケジュールにおいて,最適時定数収束を証明し,ブラックボックスモデルの蒸留作業における多くのベースラインと比較して良好な性能を示す。
関連論文リスト
- Where Does Warm-Up Come From? Adaptive Scheduling for Norm-Constrained Optimizers [43.838677595865846]
トレーニング開始時のウォームアップ時間を自動的に適応する実用的な学習率スケジューラを開発した。
本手法はLLaMAアーキテクチャで事前学習した大規模言語モデル上で評価し,適応型ウォームアップ選択が手作業で調整したウォームアップスケジュールよりも一貫して優れているか,少なくとも一致していることを示す。
論文 参考訳(メタデータ) (2026-02-05T16:06:19Z) - Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model [19.00191673972499]
勾配降下学習モデル(SGD)の最適学習率スケジュールの解法モデルについて検討する。
ハードフェーズでは、最適スケジュールはウォームアップ安定デカイに似ており、初期学習レートは一定($T$)で、トレーニングステップの消滅分だけ実行されます。
我々のモデルは、簡単かつ困難な状況下での計算-最適スケーリング法則(モデルサイズとトレーニングステップが選択される)も予測します。
論文 参考訳(メタデータ) (2026-02-04T17:11:36Z) - The Role of Target Update Frequencies in Q-Learning [4.76285598583384]
ターゲットネットワーク更新周波数(TUF)は、(深い)Q-ラーニングにおける中央安定化機構である。
周期的目標更新をネスト最適化スキームとして定式化し、各外部反復が不正確なベルマン最適演算子を適用する。
学習過程を通じて最適な目標更新頻度が幾何的に増加することを示す。
論文 参考訳(メタデータ) (2026-02-03T15:19:20Z) - Dynamic Learning Rate Scheduling based on Loss Changes Leads to Faster Convergence [2.1665689529884697]
emphGreedyLRは、トレーニング中に現在の損失に基づいて学習率を適応的に調整する新しいスケジューラである。
提案手法は, 精度, 速度, 収束の点で, 最先端のスケジューラよりも優れている。
論文 参考訳(メタデータ) (2025-12-16T16:03:52Z) - Beyond the Ideal: Analyzing the Inexact Muon Update [54.70108543057578]
本報告では,Muonコアにおける不正確な更新の初回解析について述べる。
この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
論文 参考訳(メタデータ) (2025-10-22T18:01:07Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training [55.233765889424035]
本研究では,大規模モデル学習における学習速度のスケジュールが,非滑らかな最適化理論に縛られた凸と驚くほど類似していることを示す。
最適学習率で継続トレーニングのスケジュールを延長し、かつ、最適学習率をスケジュール間で転送することにより、124Mと210MのLlama型モデルをトレーニングするための顕著な改善を実現した。
論文 参考訳(メタデータ) (2025-01-31T08:55:56Z) - The Road Less Scheduled [45.01813613035411]
最適化停止ステップTの仕様を必要としない既存の学習率スケジュールは、Tに依存する学習率スケジュールにより大幅に改善される。
本稿では,スケジュールを全面的に活用することで,この停止時間を回避するアプローチを提案する。
我々のスケジュール自由アプローチは運動量を持つ標準スケジュールに余分なハイパーパラメータを導入しない。
論文 参考訳(メタデータ) (2024-05-24T16:20:46Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Eigencurve: Optimal Learning Rate Schedule for SGD on Quadratic
Objectives with Skewed Hessian Spectrums [26.44093918424658]
Eigencurveは、2次目的のSGDの最小収束率(定数まで)を達成することができる学習率スケジュールの最初のファミリーである。
実験結果から,Eigencurveは画像分類タスクにおいて,ステップ崩壊を著しく上回り得ることが示された。
実用的な応用のための2つの単純な学習率スケジューラは、Eigencurveを近似することができる。
論文 参考訳(メタデータ) (2021-10-27T01:17:53Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。