論文の概要: NorMuon: Making Muon more efficient and scalable
- arxiv url: http://arxiv.org/abs/2510.05491v1
- Date: Tue, 07 Oct 2025 01:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.052014
- Title: NorMuon: Making Muon more efficient and scalable
- Title(参考訳): NorMuon: Muonをより効率的でスケーラブルにする
- Authors: Zichong Li, Liming Liu, Chen Liang, Weizhu Chen, Tuo Zhao,
- Abstract要約: 我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
- 参考スコア(独自算出の注目度): 71.49702449498085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of optimizer significantly impacts the training efficiency and computational costs of large language models (LLMs). Recently, the Muon optimizer has demonstrated promising results by orthogonalizing parameter updates, improving optimization geometry through better conditioning. Despite Muon's emergence as a candidate successor to Adam, the potential for jointly leveraging their strengths has not been systematically explored. In this work, we bridge this gap by proposing NorMuon (Neuron-wise Normalized Muon), an optimizer that synergistically combines orthogonalization with neuron-level adaptive learning rates. Our analysis reveals that while Muon effectively reduces condition numbers, the resulting updates exhibit highly non-uniform neuron norms, causing certain neurons to dominate the optimization process. NorMuon addresses this imbalance by maintaining second-order momentum statistics for each neuron and applying row-wise normalization after orthogonalization, ensuring balanced parameter utilization while preserving Muon's conditioning benefits. To enable practical deployment at scale, we develop an efficient distributed implementation under the FSDP2 framework that strategically distributes orthogonalization computations across devices. Experiments across multiple model scales demonstrate that NorMuon consistently outperforms both Adam and Muon, achieving 21.74% better training efficiency than Adam and 11.31% improvement over Muon on 1.1 B pretraining setting, while maintaining a comparable memory footprint to Muon. Our findings suggest that orthogonalization and adaptive learning rates are complementary rather than competing approaches, opening new avenues for optimizer design in large-scale deep learning.
- Abstract(参考訳): オプティマイザの選択は、大規模言語モデル(LLM)の訓練効率と計算コストに大きな影響を及ぼす。
近年、Muonオプティマイザは、パラメータ更新の直交化や、より良い条件付けによる最適化の最適化を改善することで、有望な結果を証明している。
ムーンがアダムの後継候補として台頭したにも拘わらず、その強みを共同で活用する可能性については体系的に検討されていない。
本研究では、直交化とニューロンレベルの適応学習率を相乗的に結合する最適化器であるNorMuon(Neuron-wise Normalized Muon)を提案することにより、このギャップを埋める。
解析の結果、Muonは条件数を大幅に削減するが、結果として得られる更新は非一様ニューロンノルムが非常に高く、特定のニューロンが最適化プロセスを支配していることが明らかとなった。
NorMuonはこの不均衡に対処するため、各ニューロンの2階運動量統計を維持し、直交後の行次正規化を適用し、Muonの条件付けの利点を保ちながらパラメータ利用のバランスを確保する。
そこで我々は,FSDP2フレームワークを用いて,デバイス間の直交化計算を戦略的に分散する効率的な分散実装を開発する。
複数のモデルスケールでの実験では、NorMuonはAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%向上し、Muonに匹敵するメモリフットプリントを維持している。
その結果, 直交化と適応学習は競合するアプローチよりも補完的であり, 大規模深層学習における最適化設計への新たな道を開くことが示唆された。
関連論文リスト
- Muon Outperforms Adam in Tail-End Associative Memory Learning [118.98991042050532]
機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。
我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
論文 参考訳(メタデータ) (2025-09-30T10:04:08Z) - AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
AdaMuonは、要素の適応性と、大規模なニューラルネットワークトレーニングのための直交更新を組み合わせる。
AdaMuonは安定性を維持しているが、大規模シナリオではAdamを40%以上のトレーニング効率で上回ることができる。
論文 参考訳(メタデータ) (2025-07-15T05:49:37Z) - Practical Efficiency of Muon for Pretraining [13.914926836677648]
大規模なバッチサイズでデータ効率を維持する上で、MuonはAdamWよりも効果的であることがわかった。
本稿では,資源のオーバーヘッドを最小限に抑えつつ,mulPのすべてのエラー源を考慮に入れた単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-04T19:14:43Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。