論文の概要: Muon: Training and Trade-offs with Latent Attention and MoE
- arxiv url: http://arxiv.org/abs/2509.24406v1
- Date: Mon, 29 Sep 2025 07:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.833342
- Title: Muon: Training and Trade-offs with Latent Attention and MoE
- Title(参考訳): Muon: 潜在意識とMoEによるトレーニングとトレードオフ
- Authors: Sushant Mehta, Raj Dandekar, Rajat Dandekar, Sreedath Panat,
- Abstract要約: 小型・中型デコーダ(30M-200Mパラメータ)のみで変圧器を訓練するためのMuonの総合的理論的・実証的研究について述べる。
厳密な理論解析として, (i) 標準仮定による収束率のショーイング, (ii) 勾配の爆発を防止するスペクトル正則化特性, (iii) スティーフェル多様体上の自然勾配降下への接続, (iv) スペクトルノルムによる最も急勾配降下への同値性などを挙げる。
- 参考スコア(独自算出の注目度): 4.500362688166346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comprehensive theoretical and empirical study of the Muon optimizer for training transformers only with a small to medium decoder (30M - 200M parameters), with an emphasis on its mathematical foundations, convergence properties and synergistic interactions with modern architectural optimizations. Building on recent work showing Muon's scalability, we provide rigorous theoretical analysis including: (i)showing the convergence rate under standard assumptions, (ii) spectral regularization properties that prevent gradient explosion, (iii) connection to natural gradient descent on the Stiefel manifold, and (iv) equivalence to steepest gradient descent under the spectral norm. Crucially, we demonstrate that Muon expands the Pareto frontier in the compute-time trade-off by maintaining superior data efficiency at large batch sizes, a key finding of~\cite{essentialai2025muon} that we validate across our model scales. Empirically, Muon reaches the target loss with 48-52\% of the training calculated by AdamW while maintaining or improving the final perplexity, consistent with larger-scale results. When combined with Multi-Head Latent Attention (MLA) and Mixture-of-Experts (MoE), we observe multiplicative efficiency gains: MLA+MoE+Muon achieves 68\% memory reduction and 3.2$\times$ inference speedup, while improving perplexity by 8-12\%. We provide detailed procedures on 15 architectural and optimizer components, stability analyzes across 100+ training runs, and practical implementation guidelines including Newton-Schulz coefficients $(3.4445, -4.7750, 2.0315)$ optimized by~\cite{su2024muonblog}. Our theoretical analysis and comprehensive experiments establish Muon as a principled, robust alternative to AdamW that particularly excels when combined with modern efficiency techniques and large-batch training regimes.
- Abstract(参考訳): 本研究では, トランスフォーマーを小型から中程度のデコーダ(30M~200Mパラメータ)でトレーニングするためのMuonオプティマイザの総合的, 実証的研究を行い, その数学的基礎, 収束特性, 現代的なアーキテクチャ最適化との相乗的相互作用に着目した。
Muon のスケーラビリティを示す最近の研究に基づいて、我々は次のように厳密な理論的分析を行う。
一 標準仮定による収束率
(II)勾配爆発を防止するスペクトル正則化特性
(三)スティーフェル多様体上の自然勾配降下と接続、及び
(4)スペクトル標準の下での最も急勾配降下に対する等価性。
重要なことは、Muonが大規模なバッチサイズで優れたデータ効率を維持することで、計算時間トレードオフにおいてParetoフロンティアを拡張することを実証している。
経験的に、Muonは、AdamWが計算したトレーニングの48-52\%で目標の損失に到達し、最終的なパープレキシティを維持または改善し、より大規模な結果と一致させる。
MLA+MoE+Muonは68\%のメモリ削減と3.2$\times$推論高速化を実現し、8-12\%のパープレキシティ向上を実現した。
15のアーキテクチャおよびオプティマイザコンポーネントの詳細な手順、100以上のトレーニング実行の安定性解析、Newton-Schulz係数$(3.4445, -4.7750, 2.0315)$等の実践的実装ガイドラインを~\cite{su2024muonblog}で最適化する。
理論解析と包括的実験により、ムオンはAdamWの原則的かつ堅牢な代替品として確立され、特に近代的効率技術や大規模バッチトレーニング制度と組み合わせることで優れている。
関連論文リスト
- On the Convergence of Muon and Beyond [31.900178928104648]
Muon はニューラルネットワークの行列構造パラメーターにおいて顕著な成功を収めた。
理論と実効率の違いの間には、大きな理解ギャップが持続する。
この研究は、ムオン形式の最適性の最初の証明を提供し、イット収束に関する我々の発見を裏付けるものである。
論文 参考訳(メタデータ) (2025-09-19T09:43:37Z) - DualSparse-MoE: Coordinating Tensor/Neuron-Level Sparsity with Expert Partition and Reconstruction [15.261077484922616]
Mixture of Experts (MoE) はLarge Language Models (LLM) の主流アーキテクチャとなった。
トレーニング済みMoEモジュールにおけるテンソルとニューロンの二重間隔を精度と効率の両立の鍵因子として同定した。
本稿では,動的テンソルレベル低下と静的ニューロンレベル再構成を統合する推論システムであるDualSparse-MoEを提案する。
論文 参考訳(メタデータ) (2025-08-25T18:08:32Z) - Convergence Bound and Critical Batch Size of Muon Optimizer [1.2289361708127877]
4つの実践的な設定にまたがって、Muon の収束証明を提供する。
重み付け崩壊の付加は、より厳密な理論的境界をもたらすことを示す。
トレーニングの計算コストを最小限に抑えた,Muonのクリティカルバッチサイズを導出する。
論文 参考訳(メタデータ) (2025-07-02T11:03:13Z) - Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。
ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。
提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文 参考訳(メタデータ) (2025-05-20T17:59:31Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。