論文の概要: Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum
- arxiv url: http://arxiv.org/abs/2602.17080v1
- Date: Thu, 19 Feb 2026 05:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.701176
- Title: Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum
- Title(参考訳): AdamがMumonを改善 - 直交型モーメントによる適応モーメント推定
- Authors: Minxin Zhang, Yuxuan Liu, Hayden Scheaffer,
- Abstract要約: 雑音適応を伴う運動量の最初の原理的統合を提供するため、新しい対角拡張NAMOとNAMO-Dを提案する。
NAMO-D は代わりに、クランプされた成分を持つ対角行列による直交運動量を持つ。
GPT-2モデルの事前訓練実験では,AdamWモデルとMuonモデルと比較してNAMOモデルとNAMO-Dモデルの両方の性能が向上した。
- 参考スコア(独自算出の注目度): 5.049533819651459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient stochastic optimization typically integrates an update direction that performs well in the deterministic regime with a mechanism adapting to stochastic perturbations. While Adam uses adaptive moment estimates to promote stability, Muon utilizes the weight layers' matrix structure via orthogonalized momentum, showing superior performance in large language model training. We propose a new optimizer and a diagonal extension, NAMO and NAMO-D, providing the first principled integration of orthogonalized momentum with norm-based Adam-type noise adaptation. NAMO scales orthogonalized momentum using a single adaptive stepsize, preserving orthogonality while improving upon Muon at negligible additional cost. NAMO-D instead right-multiplies orthogonalized momentum by a diagonal matrix with clamped entries. This design enables neuron-wise noise adaptation and aligns with the common near block-diagonal Hessian structure. Under standard assumptions, we establish optimal convergence rates for both algorithms in the deterministic setting and show that, in the stochastic setting, their convergence guarantees adapt to the noise level of stochastic gradients. Experiments on pretraining GPT-2 models demonstrate improved performance of both NAMO and NAMO-D compared to the AdamW and Muon baselines, with NAMO-D achieving further gains over NAMO via an additional clamping hyperparameter that balances the competing goals of maintaining a well-conditioned update direction and leveraging fine-grained noise adaptation.
- Abstract(参考訳): 効率的な確率最適化は典型的には、決定論的状態において、確率的摂動に適応するメカニズムでうまく機能する更新方向を統合する。
アダムは適応モーメント推定を用いて安定性を推し進める一方、ムオンは重み付け層の行列構造を直交運動量によって利用し、大規模言語モデルの訓練において優れた性能を示す。
そこで我々は,新しいオプティマイザと対角線拡張NAMOとNAMO-Dを提案する。
NAMOは、単一の適応的なステップサイズを使用して直交運動量をスケールし、ムオンを無視できる追加コストで改善しながら直交性を保存する。
NAMO-D は代わりに、クランプされた成分を持つ対角行列による直交運動量を持つ。
この設計により、ニューロンワイドノイズ適応が可能となり、共通のブロック対角ヘッセン構造と整合する。
標準的な仮定の下では、両アルゴリズムを決定論的設定で最適収束率を確立し、確率的設定では、それらの収束が確率的勾配の雑音レベルに適応することを示す。
GPT-2モデルの事前訓練実験では、AdamWとMuonのベースラインと比較してNAMOとNAMO-Dの性能が向上した。
関連論文リスト
- Adaptive Optimization via Momentum on Variance-Normalized Gradients [21.17954226393917]
MVN-Gradは、分散に基づく正規化と正規化後の運動量という2つの相補的なアイデアを組み合わせることにより、安定性と性能を向上させる。
CIFAR-100イメージ分類とGPTスタイルの言語モデリングベンチマーク、MVN-GradマッチやAdam、AdaBelief、LaPropPropよりも優れている。
論文 参考訳(メタデータ) (2026-02-10T19:00:25Z) - Variance-Adaptive Muon: Accelerating LLM Pretraining with NSR-Modulated and Variance-Scaled Momentum [19.385264518362472]
大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスク間の競合性能を達成する。
モーメントに分散適応正規化を適用するMuon-NSRとMuon-VSの2つの変種を提案する。
GPT-2 と LLaMA プレトレーニング実験により,提案手法は収束を加速し,AdamW と Muon の両ベースラインの競合よりも連続的に検証損失を減少させることを示した。
論文 参考訳(メタデータ) (2026-01-21T02:41:56Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
AdaMuonは、要素の適応性と、大規模なニューラルネットワークトレーニングのための直交更新を組み合わせる。
AdaMuonは安定性を維持しているが、大規模シナリオではAdamを40%以上のトレーニング効率で上回ることができる。
論文 参考訳(メタデータ) (2025-07-15T05:49:37Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。