論文の概要: Muon Outperforms Adam in Tail-End Associative Memory Learning
- arxiv url: http://arxiv.org/abs/2509.26030v1
- Date: Tue, 30 Sep 2025 10:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.501411
- Title: Muon Outperforms Adam in Tail-End Associative Memory Learning
- Title(参考訳): Muon は Tail-End Associative Memory Learning で Adam より優れている
- Authors: Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Cunxiao Du, Chao Du, Tianyu Pang, Zhuoran Yang, Mingyi Hong, Vincent Y. F. Tan,
- Abstract要約: 機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。
我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
- 参考スコア(独自算出の注目度): 118.98991042050532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Muon optimizer is consistently faster than Adam in training Large Language Models (LLMs), yet the mechanism underlying its success remains unclear. This paper demystifies this mechanism through the lens of associative memory. By ablating the transformer components optimized by Muon, we reveal that the associative memory parameters of LLMs, namely the Value and Output (VO) attention weights and Feed-Forward Networks (FFNs), are the primary contributors to Muon's superiority. Motivated by this associative memory view, we then explain Muon's superiority on real-world corpora, which are intrinsically heavy-tailed: a few classes (tail classes) appear far less frequently than others. The superiority is explained through two key properties: (i) its update rule consistently yields a more isotropic singular spectrum than Adam; and as a result, (ii) on heavy-tailed data, it optimizes tail classes more effectively than Adam. Beyond empirical evidence, we theoretically confirm these findings by analyzing a one-layer associative memory model under class-imbalanced data. We prove that Muon consistently achieves balanced learning across classes regardless of feature embeddings, whereas Adam can induce large disparities in learning errors depending on embedding properties. In summary, our empirical observations and theoretical analyses reveal Muon's core advantage: its update rule aligns with the outer-product structure of linear associative memories, enabling more balanced and effective learning of tail classes in heavy-tailed distributions than Adam.
- Abstract(参考訳): Muonオプティマイザは、Large Language Models (LLMs) のトレーニングにおいて、Adamよりも一貫して高速である。
本稿では、連想記憶のレンズを通してこの機構をデミステレーションする。
Muonによって最適化されたトランスフォーマーコンポーネントを非難することにより、LLMの連想メモリパラメータ、すなわち値と出力の重み付け(VO)とフィードフォワードネットワーク(FFN)が、Muonの優位性の主要な貢献者であることを明らかにした。
この連想的記憶観に触発されて、本質的に重く、いくつかのクラス(尾類)は他のクラスよりもはるかに少ない頻度で現れる実世界のコーパスに対するムオンの優越性を説明する。
優越性は2つの重要な性質を通して説明される。
i)更新規則は一貫してアダムよりも等方性のある特異スペクトルを生じさせ、その結果である。
(ii)重み付きデータでは、Adamよりも効率的にテールクラスを最適化する。
実験的な証拠の他に,クラス不均衡データに基づく一層連想記憶モデルの解析により,これらの知見を理論的に検証する。
我々は,Muonが特徴埋め込みに関わらず,クラス間のバランスの取れた学習を一貫して達成できることを証明した。
この更新規則は、線形連想記憶の外部積構造と一致し、アダムよりも重尾分布の尾クラスのよりバランスよく効果的な学習を可能にする。
関連論文リスト
- Conda: Column-Normalized Adam for Training Large Language Models Faster [70.66067959375748]
Column-Normalized Adam (Conda)は、大規模言語モデル(LLM)に対する新しいアプローチである。
Condaはサブスペースに更新を投影し、投影された勾配に基づいてカラムワイズ第2モーメント正規化を適用する。
LLaMAとGPT-2シリーズの実験では、コンダはトレーニング前のAdamW、Muon、その他のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-29T02:58:19Z) - Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [51.92313556418432]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。
各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。
我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文 参考訳(メタデータ) (2025-08-06T11:22:23Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - Inducing Neural Collapse in Deep Long-tailed Learning [13.242721780822848]
クラス不均衡データの高品質な表現を学習するための2つの明示的な特徴正規化項を提案する。
提案された正規化により、ニューラル崩壊現象はクラス不均衡分布の下に現れる。
本手法は, 実装が容易で, 有効であり, 既存のほとんどの方法に組み込むことができる。
論文 参考訳(メタデータ) (2023-02-24T05:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。