論文の概要: MONA: Muon Optimizer with Nesterov Acceleration for Scalable Language Model Training
- arxiv url: http://arxiv.org/abs/2605.26842v1
- Date: Tue, 26 May 2026 10:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.896864
- Title: MONA: Muon Optimizer with Nesterov Acceleration for Scalable Language Model Training
- Title(参考訳): MONA: スケーラブル言語モデルトレーニングのためのNesterovアクセラレーションによるミューオン最適化
- Authors: Jiacheng Li, Jianchao Tan, Hongtao Xu, Jiaqi Zhang, Yifan Lu, Yerui Sun, Yuchen Xie, Xunliang Cai,
- Abstract要約: 我々は、Muonの直交化フレームワークを曲率認識加速度でブリッジする加速度項MONAを提案する。
我々はMONAの収束解析を行い、加速項が鋭い最小値からの脱出を可能にすることを示す。
汎用性、数学的推論、コード生成ベンチマークで評価し、MONAがSOTA性能を達成する。
- 参考スコア(独自算出の注目度): 32.15839901598669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Muon optimizer has recently offered a promising alternative to AdamW for large language model training, leveraging matrix orthogonalization to produce geometry-aware updates. However, like all first-order methods, Muon can become trapped in sharp local minima. In this work, we present MONA, an optimizer that bridges Muon's orthogonalization framework with curvature-aware acceleration. MONA adds an acceleration term directly into Muon's gradient processing pipeline. This term is calculated from the exponential moving average of gradient differences. We provide a detailed convergence analysis for MONA, showing that the acceleration term enables escape from sharp minima while preserving Muon's spectral-norm regularization. Empirically, MONA achieves better convergence and downstream task performance compared to both Muon and AdamW across three scales of Mixture-of-Experts pretraining, spanning from 1B to 68B parameters, with the largest model trained on 1 trillion tokens. Furthermore, we conduct supervised fine-tuning on the MOE-68B-A3B model and evaluate it on general capability, mathematical reasoning, and code generation benchmarks, where MONA achieves SOTA performance.
- Abstract(参考訳): Muonオプティマイザは先頃、大規模言語モデルのトレーニングにAdamWに代わる有望な代替手段を提供するとともに、行列の直交化を活用して、幾何学的に認識された更新を生成する。
しかし、全ての一階法と同様に、ムオンはシャープな局所ミニマに閉じ込められる。
本研究では,Muonの直交化フレームワークを曲率認識加速度でブリッジする最適化器MONAを提案する。
MONAは、Muonの勾配処理パイプラインに直接アクセラレーション項を追加する。
この項は勾配差の指数移動平均から計算される。
我々は,Muonのスペクトルノルム正規化を保ちながら,加速項がシャープ・ミニマから脱出できることを示すMONAの詳細な収束解析を行う。
経験的に、MONAはMuonとAdamWの3つのスケールのMixture-of-Expertsプリトレーニングと比較すると、コンバージェンスとダウンストリームタスクのパフォーマンスが向上し、1兆トークンでトレーニングされた最大のモデルである1Bから68Bパラメータにまたがる。
さらに、MOE-68B-A3Bモデルの教師付き微調整を行い、汎用性、数学的推論、コード生成ベンチマークで評価し、そこでMONAはSOTA性能を達成する。
関連論文リスト
- Understanding and Accelerating the Training of Masked Diffusion Language Models [104.60946175023008]
マズード拡散モデル(MDM)は、言語モデリングのための自己回帰モデル(ARM)に代わる有望な代替品として登場した。
最終性能を維持しながら、標準MDMトレーニングを加速する方法を示す。
また、様々なベンチマークにおいて、生成パープレキシティ、ゼロショットパープレキシティ、ダウンストリームタスク性能の高速化を示す。
論文 参考訳(メタデータ) (2026-05-13T05:29:38Z) - Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning [18.570226339282296]
Muonは、大規模な基礎モデル事前トレーニングのための有望な計算として登場した。
メモリオーバーヘッドが無視できるMuon$2$のゲインをほとんど保存するメモリ効率の係数化変種であるMuon$2$を提案する。
論文 参考訳(メタデータ) (2026-04-11T00:27:40Z) - Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory [77.27772368491698]
Muonのようなスペクトルは、最近、大規模な言語モデルトレーニングにおいて、強い経験的パフォーマンスを示している。
我々はこの問題を線形連想記憶問題を通して研究する。
また,Muonの貯蔵能力はSGDよりも有意に高いことがわかった。
論文 参考訳(メタデータ) (2026-03-27T16:13:18Z) - Variance-Adaptive Muon: Accelerating LLM Pretraining with NSR-Modulated and Variance-Scaled Momentum [19.385264518362472]
大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスク間の競合性能を達成する。
モーメントに分散適応正規化を適用するMuon-NSRとMuon-VSの2つの変種を提案する。
GPT-2 と LLaMA プレトレーニング実験により,提案手法は収束を加速し,AdamW と Muon の両ベースラインの競合よりも連続的に検証損失を減少させることを示した。
論文 参考訳(メタデータ) (2026-01-21T02:41:56Z) - Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - MARS-M: When Variance Reduction Meets Matrices [47.405031764674014]
マトリックスベースのプレコンディショニングは、大規模なニューラルネットワークのためのスカラーベースのプレコンディショニングよりも効率的であることが示されている。
我々は,MARSにおける分散低減手法をMuonと統合する新しい手法であるMARS-Mを紹介する。
言語モデリングとコンピュータビジョンタスクにおける実験結果から、MARS-Mは、様々な下流ベンチマークにおいて、一貫して損失を減らし、性能を向上することを示した。
論文 参考訳(メタデータ) (2025-10-20T16:49:22Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - Muon: Training and Trade-offs with Latent Attention and MoE [4.500362688166346]
小型・中型デコーダ(30M-200Mパラメータ)のみで変圧器を訓練するためのMuonの総合的理論的・実証的研究について述べる。
厳密な理論解析として, (i) 標準仮定による収束率のショーイング, (ii) 勾配の爆発を防止するスペクトル正則化特性, (iii) スティーフェル多様体上の自然勾配降下への接続, (iv) スペクトルノルムによる最も急勾配降下への同値性などを挙げる。
論文 参考訳(メタデータ) (2025-09-29T07:51:06Z) - AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
AdaMuonは、要素の適応性と、大規模なニューラルネットワークトレーニングのための直交更新を組み合わせる。
AdaMuonは安定性を維持しているが、大規模シナリオではAdamを40%以上のトレーニング効率で上回ることができる。
論文 参考訳(メタデータ) (2025-07-15T05:49:37Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。