論文の概要: Variance-Adaptive Muon: Accelerating LLM Pretraining with NSR-Modulated and Variance-Scaled Momentum
- arxiv url: http://arxiv.org/abs/2601.14603v1
- Date: Wed, 21 Jan 2026 02:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.217045
- Title: Variance-Adaptive Muon: Accelerating LLM Pretraining with NSR-Modulated and Variance-Scaled Momentum
- Title(参考訳): 可変適応ミューオン: NSR-Modulated and Variance-Scaled Momentum によるLCMトレーニングの高速化
- Authors: Jingru Li, Yibo Fan, Huan Li,
- Abstract要約: 大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスク間の競合性能を達成する。
モーメントに分散適応正規化を適用するMuon-NSRとMuon-VSの2つの変種を提案する。
GPT-2 と LLaMA プレトレーニング実験により,提案手法は収束を加速し,AdamW と Muon の両ベースラインの競合よりも連続的に検証損失を減少させることを示した。
- 参考スコア(独自算出の注目度): 19.385264518362472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) achieve competitive performance across diverse natural language processing (NLP) tasks, yet pretraining is computationally demanding, making optimizer efficiency an important practical consideration. Muon accelerates LLM pretraining via orthogonal momentum updates that serve as a matrix analogue of the element-wise sign operator. Motivated by the recent perspective that Adam is a variance-adaptive sign update algorithm, we propose two variants of Muon, Muon-NSR and Muon-VS, which apply variance-adaptive normalization to momentum before orthogonalization. Muon-NSR applies noise-to-signal ratio (NSR) modulation, while Muon-VS performs variance-based scaling without introducing additional hyperparameters. Experiments on GPT-2 and LLaMA pretraining demonstrate that our proposed methods accelerate convergence and consistently achieve lower validation loss than both competitive, well-tuned AdamW and Muon baselines. For example, on the LLaMA-1.2B model, Muon-NSR and Muon-VS reduce the iterations required to reach the target validation loss by $1.36\times$ relative to the well-tuned Muon following the recent benchmark.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにまたがる競争性能を達成するが、事前学習は計算的に要求されるため、最適化効率は重要な実践的考慮事項である。
Muon は直交運動量更新による LLM 事前トレーニングを加速し、要素ワイドシグ演算子の行列類似体として機能する。
近年,Adam が分散適応型符号更新アルゴリズムであるという観点から,直交化前の運動量に分散適応正規化を適用する Muon-NSR と Muon-VS の2つの変種を提案する。
Muon-NSRはノイズ-信号比(NSR)変調を適用し、Muon-VSは追加のハイパーパラメータを導入することなく分散ベースのスケーリングを実行する。
GPT-2 と LLaMA プレトレーニング実験により,提案手法は収束を加速し,AdamW と Muon の両ベースラインの競合よりも連続的に検証損失を減少させることを示した。
例えば、LLaMA-1.2B モデルでは、Muon-NSR と Muon-VS は、最近のベンチマークの後、よく調整された Muon と比較して、目標の検証損失に到達するのに必要なイテレーションを $1.36\times$ に減らしている。
関連論文リスト
- Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - MARS-M: When Variance Reduction Meets Matrices [47.405031764674014]
マトリックスベースのプレコンディショニングは、大規模なニューラルネットワークのためのスカラーベースのプレコンディショニングよりも効率的であることが示されている。
我々は,MARSにおける分散低減手法をMuonと統合する新しい手法であるMARS-Mを紹介する。
言語モデリングとコンピュータビジョンタスクにおける実験結果から、MARS-Mは、様々な下流ベンチマークにおいて、一貫して損失を減らし、性能を向上することを示した。
論文 参考訳(メタデータ) (2025-10-20T16:49:22Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - REG: A Regularization Optimizer for Robust Training Dynamics [24.850151895583494]
RACS(Row-and-Column-Scaling)オペレータは、更新ステップをより劇的な方法で正規化することにより、既存のトレーニングダイナミクスの実装が簡単になり、互換性が向上する。
我々は,我々のREGがAdamWよりも優れた性能と安定性を達成できることを実証すると同時に,AdamWトレーニングパラダイムとの整合性も維持する。
論文 参考訳(メタデータ) (2025-10-04T06:05:57Z) - AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
AdaMuonは、要素の適応性と、大規模なニューラルネットワークトレーニングのための直交更新を組み合わせる。
AdaMuonは安定性を維持しているが、大規模シナリオではAdamを40%以上のトレーニング効率で上回ることができる。
論文 参考訳(メタデータ) (2025-07-15T05:49:37Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。