論文の概要: AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training
- arxiv url: http://arxiv.org/abs/2505.16363v1
- Date: Thu, 22 May 2025 08:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.14069
- Title: AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training
- Title(参考訳): AdamS: Momentum Itself は LLM プレトレーニングとポストトレーニングの正規化ツールになる
- Authors: Huishuai Zhang, Bohan Wang, Luoxin Chen,
- Abstract要約: 我々は,大規模言語モデル(LLM)の事前学習とポストトレーニングのための,Adamの簡易かつ効果的な代替手段であるAdamSを紹介した。
新たな分母、すなわち運動量と現在の勾配の重み付き和の根を利用することにより、AdamSは第二モーメント推定の必要性を排除している。
AdamSは効率が良く、SGDのメモリと計算フットプリントと運動量とを一致させ、優れた最適化性能を提供する。
- 参考スコア(独自算出の注目度): 22.58304858379219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AdamS, a simple yet effective alternative to Adam for large language model (LLM) pretraining and post-training. By leveraging a novel denominator, i.e., the root of weighted sum of squares of the momentum and the current gradient, AdamS eliminates the need for second-moment estimates. Hence, AdamS is efficient, matching the memory and compute footprint of SGD with momentum while delivering superior optimization performance. Moreover, AdamS is easy to adopt: it can directly inherit hyperparameters of AdamW, and is entirely model-agnostic, integrating seamlessly into existing pipelines without modifications to optimizer APIs or architectures. The motivation behind AdamS stems from the observed $(L_0, L_1)$ smoothness properties in transformer objectives, where local smoothness is governed by gradient magnitudes that can be further approximated by momentum magnitudes. We establish rigorous theoretical convergence guarantees and provide practical guidelines for hyperparameter selection. Empirically, AdamS demonstrates strong performance in various tasks, including pre-training runs on GPT-2 and Llama2 (up to 13B parameters) and reinforcement learning in post-training regimes. With its efficiency, simplicity, and theoretical grounding, AdamS stands as a compelling alternative to existing optimizers.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)の事前学習とポストトレーニングのための,Adamの簡易かつ効果的な代替手段であるAdamSを紹介した。
新たな分母、すなわち運動量と現在の勾配の重み付き和の根を利用することにより、AdamSは第二モーメント推定の必要性を排除している。
したがって、AdamSは効率が良く、SGDのメモリと計算フットプリントと運動量とを一致させ、優れた最適化性能を提供する。
さらにAdamSは、AdamWのハイパーパラメータを直接継承でき、完全にモデルに依存しず、APIやアーキテクチャを最適化する修正なしに既存のパイプラインにシームレスに統合できる。
AdamS の背後にあるモチベーションは、観測された $(L_0, L_1)$ の変圧器の滑らかさ特性から来ており、局所滑らかさは運動量等級によってさらに近似できる勾配等級によって支配される。
我々は厳密な理論収束保証を確立し、ハイパーパラメータ選択のための実践的ガイドラインを提供する。
経験的に、AdamSはGPT-2とLlama2(最大13Bパラメータ)での事前学習や、ポストトレーニング体制での強化学習など、様々なタスクで強いパフォーマンスを示している。
効率性、単純さ、理論的根拠から、AdamSは既存のオプティマイザに代わる魅力的な代替品である。
関連論文リスト
- Towards Simple and Provable Parameter-Free Adaptive Gradient Methods [56.060918447252625]
本稿では,AdaGrad++とAdam++について述べる。
我々は,AdaGrad++がAdaGradに比較して,事前定義された学習率の仮定を伴わずに,凸最適化においてAdaGradと同等の収束率を達成したことを証明した。
論文 参考訳(メタデータ) (2024-12-27T04:22:02Z) - CAdam: Confidence-Based Optimization for Online Learning [35.84013976735154]
本稿では,更新を決定する前に,各パラメータ次元の運動量と勾配との整合性を評価する信頼度に基づく最適化手法であるCAdamを紹介する。
合成と実世界の両方のデータセットによる実験は、CAdamが他のよく知られたシステムを上回っていることを示している。
ライブレコメンデーションシステムにおける大規模A/Bテストでは、CAdamはAdamと比較してモデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-29T12:00:27Z) - Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
我々は,SGD,Adafactor,Adam,Lion,Sophiaなどの最適化アルゴリズムを比較した。
ハイパーパラメータの誤特定に対する性能や安定性の観点からは、明確な勝者として1つのアルゴリズムが現れることはなかった。
論文 参考訳(メタデータ) (2024-07-10T18:11:40Z) - An Isometric Stochastic Optimizer [0.0]
ディープラーニングアプリケーションでは、Adamが標準的な選択肢です。
それぞれのパラメータのステップサイズを、他のパラメータのノルムとは無関係にします。
パラメータの更新のノルムを、その入力と出力への線形変換の適用に不変にする新しいアプローチであるIsoを導出します。
論文 参考訳(メタデータ) (2023-07-24T17:56:58Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。