論文の概要: Towards a Principled Muon under $μ\mathsf{P}$: Ensuring Spectral Conditions throughout Training
- arxiv url: http://arxiv.org/abs/2601.01306v1
- Date: Sun, 04 Jan 2026 00:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.18109
- Title: Towards a Principled Muon under $μ\mathsf{P}$: Ensuring Spectral Conditions throughout Training
- Title(参考訳): μ\mathsf{P}$の原理的ミューオンに向けて:トレーニングを通してのスペクトル条件の確保
- Authors: John Zhao,
- Abstract要約: 我々は,大規模言語モデル(LLM)訓練において,$Pが要求するスペクトル条件を確実に保証する方法を示す。
トレーニングプロセスを通じてスペクトル条件を満たすMuon++の変種を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The $μ$-parameterization ($μ$P) provides a principled foundation for large language model (LLM) training by prescribing width-independent learning dynamics, which in turn enables predictable scaling behavior and robust hyperparameter transfer across model sizes. A central requirement of $μ$P is the satisfaction of certain spectral conditions on weight matrices, which ensure consistent feature learning and optimization behavior as model width grows. While these conditions are well understood in theory, guaranteeing their validity in practical training for matrix-based optimizers such as Muon is still under studied. Existing works that study Muon under $μ$P exhibit important limitations: they either do not ensure that the spectral conditions hold throughout the entire training horizon, or require repeated spectral normalization (or Newton-Schulz iterations) applied to both weights and updates, leading to significant computational overhead and reduced practicality. In this work, we show how to reliably guarantee the spectral conditions required by $μ$P for Muon during the entire training process. Our key insight is that for moderately large models, maintaining spectral control at the level of optimizer updates alone is sufficient to preserve $μ$P-compatible scaling, eliminating the need for explicit spectral normalization of the weights. Based on this principle, we develop a variant of Muon, namely Muon++, that satisfies spectral condition throughout the training process. Our results bridge the gap between the theoretical promises of $μ$P and the practical deployment of matrix-based optimizers in long-horizon training. We also take the first step towards an adaptive spectral condition by incorporating data-dependent effects, making it better suited for long-horizon LLM training.
- Abstract(参考訳): μ$-parameterization$μ$P($μ$P)は、幅に依存しない学習力学を規定することで、大規模言語モデル(LLM)トレーニングの基本的な基盤を提供する。
μ$Pの主な要件は、重量行列上の特定のスペクトル条件の満足度であり、モデル幅が大きくなるにつれて一貫した特徴学習と最適化の挙動が保証される。
これらの条件は理論上はよく理解されているが、Muonのような行列型オプティマイザの実践的トレーニングにおける妥当性は未だ研究中である。
ミューオンを$μ$Pで研究する既存の研究は、トレーニングの地平線全体を通してスペクトル条件が保たれることを確実にしないか、あるいは重み付けと更新の両方に繰り返しスペクトル正規化(あるいはニュートン・シュルツの反復)が必要であり、計算オーバーヘッドが大きくなり、実用性が低下する。
本研究では,Muonのトレーニングプロセス全体において,$μ$Pのスペクトル条件を確実に保証する方法を示す。
我々の重要な洞察は、中程度の大きなモデルでは、オプティマイザ更新のレベルでスペクトル制御を維持するだけで、$μ$P互換のスケーリングを維持するのに十分であり、重みの明示的なスペクトル正規化は不要であるということである。
この原理に基づいて、トレーニングプロセス全体を通してスペクトル条件を満たすMuon++の変種、すなわちMuon++を開発する。
この結果は,$μ$Pの理論的約束と,長期訓練における行列ベースの最適化の実践的展開のギャップを埋めるものである。
また、データ依存効果を取り入れた適応スペクトル条件に向けての第一歩を踏み出し、長期LLMトレーニングに適している。
関連論文リスト
- Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - Scaling Laws and In-Context Learning: A Unified Theoretical Framework [0.0]
インコンテキスト学習(ICL)により、大規模な言語モデルでは、パラメータ更新なしでデモから新しいタスクに適応することができる。
変換器におけるスケーリング法則とICLの出現を結合する統一理論的枠組みを提案する。
ICLの性能はモデル深度$L$, 幅$d$, コンテキスト長$k$, トレーニングデータ$D$, タスク構造によって決定される指数に従うことを示す。
論文 参考訳(メタデータ) (2025-11-09T05:19:14Z) - How Muon's Spectral Design Benefits Generalization: A Study on Imbalanced Data [38.54408542311739]
本研究では,Muon や Shampoo などのスペクトル対応行列の一般化が競合アルゴリズムより優れていることを示す。
様々な不均衡データセットに関する理論的知見を実証的に検証する。
論文 参考訳(メタデータ) (2025-10-27T04:00:42Z) - POME: Post Optimization Model Edit via Muon-style Projection [74.73326657229347]
POME(Post-Optimization Model Edit)は、微調整された大規模言語モデルの性能を向上させる。
デルタW$のミューオン式のプロジェクションを使い、微調整された重量と事前訓練された重量の違いを区別する。
単純な後処理ステップとして、POMEはトレーニングパイプラインから完全に分離される。
論文 参考訳(メタデータ) (2025-10-08T04:20:11Z) - Muon Optimizes Under Spectral Norm Constraints [12.29696026957078]
重み行列のスペクトルノルムに制約を課す最適化問題を暗黙的に解くことを示す。
この観点は、暗黙的に正規化され制約付き最適化アルゴリズムのより広範なクラスを探索することを可能にする。
論文 参考訳(メタデータ) (2025-06-18T01:32:39Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Hyperspherical Normalization for Scalable Deep Reinforcement Learning [57.016639036237315]
SimbaV2は最適化を安定させるために設計された新しい強化学習アーキテクチャである。
57の連続制御タスクにおいて、より大きなモデルとより大きな計算で効果的にスケールアップし、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-21T08:17:24Z) - From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs [37.50902921493273]
異なる推論制約に対する大規模言語モデル(LLM)のトレーニングには計算コストがかかる。
DynaMoEは、最小の微調整コストでトークン微分駆動型Mixture-of-Expertsモデルに事前訓練された高密度LCMを適用する。
提案手法は, 微調整コストの$frac19textth$しか使用していないにもかかわらず, 下流タスク間で類似の集計精度を実現する。
論文 参考訳(メタデータ) (2025-02-17T21:12:57Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。