論文の概要: Spectral Scaling Laws of Muon
- arxiv url: http://arxiv.org/abs/2606.04058v1
- Date: Tue, 02 Jun 2026 11:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.275991
- Title: Spectral Scaling Laws of Muon
- Title(参考訳): ムオンのスペクトルスケーリング法則
- Authors: Gagik Magakyan, Pablo Parrilo, Asuman Ozdaglar,
- Abstract要約: 運動量行列の特異値スペクトルがトレーニング中にどのように振る舞うかを考察する。
77Mから2.8Bパラメータのモデルにおいて、運動量バッファの特異値の量子化を追跡する。
我々の法則は、実践者に対して、重要な方向を直交する最小のNS構成を選択するための、原則化されたレイヤー対応のレシピを提供します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Orthonormalized update rules have rapidly become a leading choice of optimizer for training large language models, with recent open-source state-of-the-art models adopting Muon. To keep these updates tractable, Muon performs the orthonormalization with the Newton--Schulz (NS) iteration. Since NS is only approximate, directions with small singular values fail to be orthonormalized. In Muon, NS is applied to the momentum matrix at every step, yet little is known about how the singular value spectrum of these momentum matrices behaves during training, or how that behavior changes with model size. We present the first systematic study of this question. Tracking singular value quantiles of the momentum buffer across layers in models ranging from 77M to 2.8B parameters, we observe a consistent picture: after a short burn-in, the quantiles stabilize at a value determined by the layer type and model size. These stabilization values follow remarkably clean power laws in model size, with layer-dependent exponents. Layers up to mid-late depth scale very mildly with model size $M$ (around $M^{-0.25}$), so the standard 5-step NS configuration used at academic scale will continue to orthonormalize them at much larger scales. Some of the late layers, however, scale much more aggressively (up to $M^{-0.96}$) and will fall into the NS failure regime at frontier scale unless one uses more NS iterations or better-tuned coefficients. NS iterations are computationally expensive at scale; our laws give practitioners a principled, layer-aware recipe for choosing the minimum NS configuration that still orthonormalizes the directions that matter -- avoiding unnecessary computation without sacrificing update quality.
- Abstract(参考訳): オーソノーマライズされた更新ルールは、Muonを採用した最近のオープンソースの最先端モデルとともに、大規模言語モデルのトレーニングのための最適化の主要な選択肢となっている。
これらの更新をトラクタブルに保つため、MuonはNewton--Schulz (NS) イテレーションで正則化を行う。
NS は近似であるから、小さな特異値を持つ方向は正規化されない。
ムーオンでは、NSは各ステップで運動量行列に適用されるが、これらの運動量行列の特異値スペクトルがトレーニング中にどのように振る舞うか、その振る舞いがモデルサイズによってどのように変化するかについてはほとんど分かっていない。
この問題に関する最初の体系的研究について述べる。
77Mから2.8Bまでのモデルにおいて, 運動量バッファの特異値の量子化を追跡することで, 短いバーンインの後, 量子化は層タイプとモデルサイズによって決定された値で安定化する。
これらの安定化値は、層依存指数を持つモデルサイズにおける驚くほどクリーンなパワー則に従っている。
モデルサイズが$M$(約$M^{-0.25}$)と非常に緩やかにスケールするので、学術規模で使用される標準の5ステップNS構成は、ずっと大きなスケールでそれらを正規化し続けるだろう。
しかし、後期層のいくつかはより積極的にスケールし(最大$M^{-0.96}$)、より多くのNSイテレーションやより良いチューニング係数を使用しない限り、フロンティアスケールでNS障害状態に陥る。
NSイテレーションは大規模に計算コストがかかる – 当社の法律では,重要な方向を直交する最小のNS構成を選択するための,原則化されたレイヤ対応のレシピを提供しています – 更新品質を犠牲にすることなく,不要な計算を回避しています。
関連論文リスト
- AMO: Adaptive Muon Orthogonalization [28.545002803615606]
行列幾何学により行列毎の不均一性が広範に決定されることを示す。
そこで本研究では,演算子型による重み幾何計測を早期に行う観測-理論-コミット法であるAdaptive Muon Orthogonalization (AMO)を提案する。
AMOは、標準、長期、連続的な事前トレーニングにまたがって、一様スケジュールのMuonよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2026-05-18T03:29:18Z) - MuonQ: Enhancing Low-Bit Muon Quantization via Directional Fidelity Optimization [7.243820893114047]
指向性最適化の原理に基づく低ビットMuonトレーニングフレームワークを提案する。
4ビット精度のMuonQは、トレーニング損失と下流タスク精度の両方において、フル精度のMuonと密接に一致している。
私たちのコードはhttps://github.com/YupSueng/MuonQ.comで公開されています。
論文 参考訳(メタデータ) (2026-05-12T01:31:32Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Normalization Layer Per-Example Gradients are Sufficient to Predict Gradient Noise Scale in Transformers [2.1415873597974286]
比例勾配ノルムは、最小分散で勾配雑音スケール(GNS)を推定するための重要な要素である。
本稿では,パラメータ勾配を計算しながら基準を同時に計算することで,3次元あるいはそれ以上のテンソル状態におけるFLOPを最小化する手法を提案する。
現代変圧器モデルの総 GNS は正規化層のみの GNS によりよく予測されている。
論文 参考訳(メタデータ) (2024-11-01T19:50:00Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。