論文の概要: Muon+: Towards Better Muon via One Additional Normalization Step
- arxiv url: http://arxiv.org/abs/2602.21545v1
- Date: Wed, 25 Feb 2026 04:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.694912
- Title: Muon+: Towards Better Muon via One Additional Normalization Step
- Title(参考訳): Muon+: 新たな正規化ステップを通じて、より優れたMuonを目指す
- Authors: Ruijie Zhang, Yequan Zhao, Ziyue Liu, Zhengyang Wang, Zheng Zhang,
- Abstract要約: 我々は,ミュオンの簡易かつ効果的な拡張,すなわちミュオン+を提案する。
モデルスケールとアーキテクチャの広範な事前学習実験を通じて,Muon+の有効性を実証する。
- 参考スコア(独自算出の注目度): 18.816463168231618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Muon optimizer has demonstrated promising performance in pre-training large language models through gradient (or momentum) orthogonalization. In this work, we propose a simple yet effective enhancement to Muon, namely Muon+, which introduces an additional normalization step after orthogonalization. We demonstrate the effectiveness of Muon+ through extensive pre-training experiments across a wide range of model scales and architectures. Our evaluation includes GPT-style models ranging from 130M to 774M parameters and LLaMA-style models ranging from 60M to 1B parameters. We comprehensively evaluate the effectiveness of Muon+ in the compute-optimal training regime and further extend the token-to-parameter (T2P) ratio to an industrial level of $\approx 200$. Experimental results show that Muon+ provides a consistent boost on training and validation perplexity over Muon. We provide our code here: https://github.com/K1seki221/MuonPlus.
- Abstract(参考訳): Muonオプティマイザは、勾配(あるいは運動量)の直交化を通じて、大規模言語モデルの事前学習において有望な性能を示した。
そこで本研究では,直交化後の正規化ステップを新たに導入するMuon+という,シンプルかつ効果的なMuon拡張を提案する。
モデルスケールとアーキテクチャの広範な事前学習実験を通じて,Muon+の有効性を実証する。
評価対象は,130Mから774MまでのGPT型モデルと,60Mから1BまでのLLaMA型モデルである。
計算最適トレーニングシステムにおけるMuon+の有効性を総合的に評価し,トークン・ツー・パラメータ(T2P)比を産業レベルでの$\approx 200$まで拡張した。
実験結果から, Muon+ は Muon に対するトレーニングと検証の難易度を一貫した向上を提供することが示された。
https://github.com/K1seki221/MuonPlus.com/。
関連論文リスト
- Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - MuonAll: Muon Variant for Efficient Finetuning of Large Language Models [0.0]
MuonAllを導入し、2次元行列に変換することで、Muon内の全てのパラメータを組み込む。
我々は、最大50億のパラメータを持つ公開言語モデルに対して、広範囲にわたる微調整実験を行う。
論文 参考訳(メタデータ) (2025-11-08T17:45:20Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - Muon Outperforms Adam in Tail-End Associative Memory Learning [118.98991042050532]
機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。
我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
論文 参考訳(メタデータ) (2025-09-30T10:04:08Z) - Muon: Training and Trade-offs with Latent Attention and MoE [4.500362688166346]
小型・中型デコーダ(30M-200Mパラメータ)のみで変圧器を訓練するためのMuonの総合的理論的・実証的研究について述べる。
厳密な理論解析として, (i) 標準仮定による収束率のショーイング, (ii) 勾配の爆発を防止するスペクトル正則化特性, (iii) スティーフェル多様体上の自然勾配降下への接続, (iv) スペクトルノルムによる最も急勾配降下への同値性などを挙げる。
論文 参考訳(メタデータ) (2025-09-29T07:51:06Z) - AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
AdaMuonは、要素の適応性と、大規模なニューラルネットワークトレーニングのための直交更新を組み合わせる。
AdaMuonは安定性を維持しているが、大規模シナリオではAdamを40%以上のトレーニング効率で上回ることができる。
論文 参考訳(メタデータ) (2025-07-15T05:49:37Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。