論文の概要: Muon in Associative Memory Learning: Training Dynamics and Scaling Laws
- arxiv url: http://arxiv.org/abs/2602.05725v1
- Date: Thu, 05 Feb 2026 14:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.984593
- Title: Muon in Associative Memory Learning: Training Dynamics and Scaling Laws
- Title(参考訳): 連想記憶学習におけるムーン--トレーニングダイナミクスとスケーリング法則
- Authors: Binghui Li, Kaifei Wang, Han Zhong, Pinyan Lu, Liwei Wang,
- Abstract要約: We study Muon in a linear associative memory model with softmax search and ahierarchical frequency spectrum over query-apwer pairs。
我々は、Muonがこの不均衡を緩和し、より速く、より均一な進歩をもたらすことを示す。
- 参考スコア(独自算出の注目度): 23.350512542598803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Muon updates matrix parameters via the matrix sign of the gradient and has shown strong empirical gains, yet its dynamics and scaling behavior remain unclear in theory. We study Muon in a linear associative memory model with softmax retrieval and a hierarchical frequency spectrum over query-answer pairs, with and without label noise. In this setting, we show that Gradient Descent (GD) learns frequency components at highly imbalanced rates, leading to slow convergence bottlenecked by low-frequency components. In contrast, the Muon optimizer mitigates this imbalance, leading to faster and more uniform progress. Specifically, in the noiseless case, Muon achieves an exponential speedup over GD; in the noisy case with a power-decay frequency spectrum, we derive Muon's optimization scaling law and demonstrate its superior scaling efficiency over GD. Furthermore, we show that Muon can be interpreted as an implicit matrix preconditioner arising from adaptive task alignment and block-symmetric gradient structure. In contrast, the preconditioner with coordinate-wise sign operator could match Muon under oracle access to unknown task representations, which is infeasible for SignGD in practice. Experiments on synthetic long-tail classification and LLaMA-style pre-training corroborate the theory.
- Abstract(参考訳): ミューオンは勾配の行列記号を通じて行列パラメータを更新し、強い経験的ゲインを示したが、その力学とスケーリングの挙動は理論上は明らかではない。
本研究では,問合せ-問合せ-問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ/問合せ)からなる線形連想記憶モデル
この設定では、GD(Gradient Descent)は周波数成分を高度に不均衡な速度で学習し、低周波成分によってボトルネックとなる緩やかな収束をもたらすことを示す。
対照的に、ミューオンオプティマイザはこの不均衡を緩和し、より速く、より均一な進行をもたらす。
特にノイズレスの場合、MuonはGDよりも指数的なスピードアップを達成し、パワーデカイ周波数スペクトルを持つノイズの場合、Muonの最適化スケーリング法則を導出し、GDよりも優れたスケーリング効率を示す。
さらに,適応的タスクアライメントとブロック対称勾配構造から生じる暗黙的行列プレコンディショナーと解釈できることを示す。
対照的に、座標ワイドのシグ演算子を持つプリコンディショナーは、未知のタスク表現へのオラクルアクセス下でMuonにマッチする可能性があるが、実際にはSignGDでは利用できない。
合成長尾分類とLLaMA型事前学習の実験が理論を裏付けた。
関連論文リスト
- Variance-Adaptive Muon: Accelerating LLM Pretraining with NSR-Modulated and Variance-Scaled Momentum [19.385264518362472]
大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスク間の競合性能を達成する。
モーメントに分散適応正規化を適用するMuon-NSRとMuon-VSの2つの変種を提案する。
GPT-2 と LLaMA プレトレーニング実験により,提案手法は収束を加速し,AdamW と Muon の両ベースラインの競合よりも連続的に検証損失を減少させることを示した。
論文 参考訳(メタデータ) (2026-01-21T02:41:56Z) - Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。
本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文 参考訳(メタデータ) (2025-12-24T14:07:04Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - DeMuon: A Decentralized Muon for Matrix Optimization over Graphs [20.832302616074966]
DeMuonは、与えられた通信トポロジに対する分散行列最適化の方法である。
我々は,様々な接続度を持つグラフを事前学習する分散トランスについて,予備的な数値実験を行った。
論文 参考訳(メタデータ) (2025-10-01T19:06:11Z) - Low-rank Orthogonalization for Large-scale Matrix Optimization with Applications to Foundation Model Training [3.1922198632169327]
近年、Muon citejordanmuonは、基礎モデルトレーニングにおける強力なパフォーマンスに対して大きな注目を集めている。
我々は,低ランク行列符号の勾配降下と低ランクのムオン変種を提案する。
論文 参考訳(メタデータ) (2025-09-15T14:28:53Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。