論文の概要: Where Does Warm-Up Come From? Adaptive Scheduling for Norm-Constrained Optimizers
- arxiv url: http://arxiv.org/abs/2602.05813v1
- Date: Thu, 05 Feb 2026 16:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.027362
- Title: Where Does Warm-Up Come From? Adaptive Scheduling for Norm-Constrained Optimizers
- Title(参考訳): ウォームアップはどこから来るのか?ノルム制約最適化のための適応スケジューリング
- Authors: Artem Riabinin, Andrey Veprikov, Arman Bolatov, Martin Takáč, Aleksandr Beznosikov,
- Abstract要約: トレーニング開始時のウォームアップ時間を自動的に適応する実用的な学習率スケジューラを開発した。
本手法はLLaMAアーキテクチャで事前学習した大規模言語モデル上で評価し,適応型ウォームアップ選択が手作業で調整したウォームアップスケジュールよりも一貫して優れているか,少なくとも一致していることを示す。
- 参考スコア(独自算出の注目度): 43.838677595865846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study adaptive learning rate scheduling for norm-constrained optimizers (e.g., Muon and Lion). We introduce a generalized smoothness assumption under which local curvature decreases with the suboptimality gap and empirically verify that this behavior holds along optimization trajectories. Under this assumption, we establish convergence guarantees under an appropriate choice of learning rate, for which warm-up followed by decay arises naturally from the proof rather than being imposed heuristically. Building on this theory, we develop a practical learning rate scheduler that relies only on standard hyperparameters and adapts the warm-up duration automatically at the beginning of training. We evaluate this method on large language model pretraining with LLaMA architectures and show that our adaptive warm-up selection consistently outperforms or at least matches the best manually tuned warm-up schedules across all considered setups, without additional hyperparameter search. Our source code is available at https://github.com/brain-lab-research/llm-baselines/tree/warmup
- Abstract(参考訳): 本研究では,標準制約付きオプティマイザ(例えば,ムーン,ライオン)の適応学習率スケジューリングについて検討した。
本稿では,局所曲率を最適化軌道に沿って持つことを実証的に検証し,局所的な曲率を最適値の差で減少させる一般化された滑らか性仮定を提案する。
この仮定の下では、学習速度の適切な選択の下で収束保証を確立する。
この理論に基づいて,標準的なハイパーパラメータにのみ依存し,トレーニング開始時のウォームアップ時間を自動的に適応する,実用的な学習率スケジューラを開発した。
提案手法はLLaMAアーキテクチャを用いて事前学習した大規模言語モデル上で評価し,適応型ウォームアップ選択が,追加のハイパーパラメータサーチを伴わずに,検討されたすべてのセットアップにおいて,手作業で調整したウォームアップスケジュールに一貫した,あるいは少なくとも一致していることを示す。
ソースコードはhttps://github.com/brain-lab-research/llm-baselines/tree/warmupで公開しています。
関連論文リスト
- Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models [130.8912476550625]
そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T15:14:50Z) - Beyond Freezing: Sparse Tuning Enhances Plasticity in Continual Learning with Pre-Trained Models [10.904981532789824]
事前訓練されたモデルによる継続的な学習は、シーケンシャルなタスクにまたがる効率的な適応を大いに約束する。
既存のアプローチはPTMを凍結し、プロンプトやアダプタのような補助モジュールに依存している。
MIST(Mutual Information-Guided Sparse Tuning)は,PTMパラメータのサブセットを選択的に更新するプラグイン・アンド・プレイ方式である。
論文 参考訳(メタデータ) (2025-05-26T13:09:25Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Understanding Optimization in Deep Learning with Central Flows [95.5647720254338]
複雑な状態における最適化のダイナミクスを記述できる理論を開発する。
この結果から,ディープラーニングの最適化を推論する上で,中央フローが重要な理論ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Adaptive Gradient Methods with Local Guarantees [48.980206926987606]
本稿では,最良局所前提条件に対する適応的後悔保証を証明可能な適応的勾配法を提案する。
視覚領域や言語領域で人気のあるベンチマークタスクに対して,最適な学習率スケジュールを自動的に選択する上で,本手法の堅牢性を示す。
論文 参考訳(メタデータ) (2022-03-02T20:45:14Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Automatic Tuning of Stochastic Gradient Descent with Bayesian
Optimisation [8.340191147575307]
我々は,潜在ガウス過程と自己回帰的定式化に基づく,オプティマイザのトレースに対する元の確率モデルを導入する。
新しい学習率値によって引き起こされる行動の急激な変化に柔軟に調整する。
まず、コールドスタート実行のための学習率のオンライン適応のために、次に、同様のタスクセットのスケジュールを調整し、新しいタスクのためにウォームスタートするために、一連の問題に取り組むのが適しています。
論文 参考訳(メタデータ) (2020-06-25T13:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。