論文の概要: Logarithmic-time Schedules for Scaling Language Models with Momentum
- arxiv url: http://arxiv.org/abs/2602.05298v1
- Date: Thu, 05 Feb 2026 04:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.761628
- Title: Logarithmic-time Schedules for Scaling Language Models with Momentum
- Title(参考訳): モーメントを用いた言語モデルスケーリングのための対数時間スケジューリング
- Authors: Damien Ferbach, Courtney Paquette, Gauthier Gidel, Katie Everett, Elliot Paquette,
- Abstract要約: 言語データのゆるい構造を利用することで、大幅な性能向上をもたらす時間変化スケジュールを設計できることが示される。
我々は、AdamW風のスケジュールで、ログタイムスケジュールと、安定性とパフォーマンスのバランスをとるために明確な減衰とを結合するADANAを提示する。
さらに、AdEMAMixに対数時間スケジューリングを適用する際にも同様の利点が生じることを示し、対数時間ウェイトデカイだけでは大幅な改善が期待できることを示した。
- 参考スコア(独自算出の注目度): 26.126146726481764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In practice, the hyperparameters $(β_1, β_2)$ and weight-decay $λ$ in AdamW are typically kept at fixed values. Is there any reason to do otherwise? We show that for large-scale language model training, the answer is yes: by exploiting the power-law structure of language data, one can design time-varying schedules for $(β_1, β_2, λ)$ that deliver substantial performance gains. We study logarithmic-time scheduling, in which the optimizer's gradient memory horizon grows with training time. Although naive variants of this are unstable, we show that suitable damping mechanisms restore stability while preserving the benefits of longer memory. Based on this, we present ADANA, an AdamW-like optimizer that couples log-time schedules with explicit damping to balance stability and performance. We empirically evaluate ADANA across transformer scalings (45M to 2.6B parameters), comparing against AdamW, Muon, and AdEMAMix. When properly tuned, ADANA achieves up to 40% compute efficiency relative to a tuned AdamW, with gains that persist--and even improve--as model scale increases. We further show that similar benefits arise when applying logarithmic-time scheduling to AdEMAMix, and that logarithmic-time weight-decay alone can yield significant improvements. Finally, we present variants of ADANA that mitigate potential failure modes and improve robustness.
- Abstract(参考訳): 実際には、AdamW のハイパーパラメータ $(β_1, β_2)$ とウェイトデカイ $λ$ は通常固定値で保持される。
他に何か理由がありますか。
我々は,大規模言語モデルトレーニングにおいて,その答えがイエスであることが示している。言語データのゆるい構造を利用することで,大幅なパフォーマンス向上を実現するための,(β_1, β_2, λ)$の時間変化スケジュールを設計することができる。
本研究では、最適化器の勾配メモリ水平線がトレーニング時間とともに増大する対数時間スケジューリングについて検討する。
本報告では, 最適減衰機構により, 安定性が向上し, 長期記憶の利点を保ちつつ, 安定性が向上することを示した。
これに基づいて、AdamW風の最適化器であるADANAを紹介し、ログタイムスケジュールと明確な減衰を組み合わせ、安定性と性能のバランスをとる。
我々は、AdamW、Muon、AdEMAMixと比較し、トランスフォーマースケーリング(45Mから2.6Bパラメータ)におけるADANAを実証的に評価した。
適切にチューニングされると、ADANAはチューニングされたAdamWと比較して最大40%の計算効率を達成する。
さらに、AdEMAMixに対数時間スケジューリングを適用する際にも同様の利点が生じることを示し、対数時間ウェイトデカイだけでは大幅な改善が期待できることを示した。
最後に、潜在的な障害モードを緩和し、堅牢性を改善するADANAのバリエーションを示す。
関連論文リスト
- AdamHD: Decoupled Huber Decay Regularization for Language Model Pre-Training [0.2578242050187029]
AdamHuberDecayはAdamWのドロップイン代替品で、$ell$ペナルティを分離したスムーズなHuberレギュレータで置き換える。
GPT-2 と GPT-3 の事前学習実験により,AdamHuberDecay は壁面時間で 10-15% の速度で収束することが示された。
論文 参考訳(メタデータ) (2025-11-18T18:08:20Z) - Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling [75.36692892951018]
トレーニング中のバッチサイズの増加は、大規模な言語モデルの事前トレーニングを加速するための有望な戦略である。
この研究はバッチサイズスケジューリングのための原則化されたフレームワークを開発する。
標準スケジューラが学習率を半減するたびに、Seesawは1/sqrt2$と倍増し、バッチサイズを倍増します。
論文 参考訳(メタデータ) (2025-10-16T14:17:38Z) - Hyperspherical Normalization for Scalable Deep Reinforcement Learning [57.016639036237315]
SimbaV2は最適化を安定させるために設計された新しい強化学習アーキテクチャである。
57の連続制御タスクにおいて、より大きなモデルとより大きな計算で効果的にスケールアップし、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-21T08:17:24Z) - SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training [16.037614012166063]
Gradient Descent(SGD)は、トレーニング中に状態変数をトラッキングしないため、ステートレスで拡張性がある。
本研究では,SGDを非定常的に前処理することで,LLMのトレーニングを行うAdamと同じ性能が得られることを示す。
正規化は勾配を安定化させ,損失景観の局所的な曲率に反することを示す。これによってSWAN (SGD with Whitening and Normalization) が成立し,任意の状態を保存する必要がなくなる。
論文 参考訳(メタデータ) (2024-12-17T18:13:18Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。