論文の概要: MuonQ: Enhancing Low-Bit Muon Quantization via Directional Fidelity Optimization
- arxiv url: http://arxiv.org/abs/2605.11396v1
- Date: Tue, 12 May 2026 01:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.514079
- Title: MuonQ: Enhancing Low-Bit Muon Quantization via Directional Fidelity Optimization
- Title(参考訳): MuonQ: Directional Fidelity Optimization による低ビットミューオン量子化の実現
- Authors: Yupeng Su, Ruijie Zhang, Ziyue Liu, Yequan Zhao, Zheng Zhang,
- Abstract要約: 指向性最適化の原理に基づく低ビットMuonトレーニングフレームワークを提案する。
4ビット精度のMuonQは、トレーニング損失と下流タスク精度の両方において、フル精度のMuonと密接に一致している。
私たちのコードはhttps://github.com/YupSueng/MuonQ.comで公開されています。
- 参考スコア(独自算出の注目度): 7.243820893114047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Muon optimizer has emerged as a compelling alternative to Adam for training large language models, achieving remarkable computational savings through gradient orthogonalization. However, Muon's optimizer state is more sensitive to quantization errors: because the orthogonalization discards the magnitudes of singular values and retains only directional information, even small quantization errors in singular vector directions are amplified in the update. In this work, we propose MuonQ, a low-bit Muon training framework built on the principle of directional fidelity optimization. First, we apply a pre-quantization normalization so that each step introduces quantization errors of the same magnitude, preventing the accumulated error from developing a preferred direction. Second, we introduce a structural decomposition that separately quantizes the dominant singular components via power iteration, ensuring that quantization errors perturb only singular value magnitudes rather than rotating singular vector directions. Third, we adopt $μ$-law companding quantization to allocate higher resolution to densely packed momentum values, shifting the quantization objective from outlier preservation to dense-region distinguishability. Together, these techniques enable stable 4-bit quantization of Muon's optimizer states. Pre-training experiments on GPT-style and LLaMA-style models demonstrate that MuonQ at 4-bit precision closely matches full-precision Muon in both training loss and downstream task accuracy, while reducing optimizer state memory by up to 7.3 $\times$. Our code is available at https://github.com/YupengSu/MuonQ.
- Abstract(参考訳): Muonオプティマイザは、大規模言語モデルのトレーニングにAdamに代わる魅力的な代替品として登場し、勾配直交化による卓越した計算節約を実現している。
しかし、ムーンの最適化状態は量子化誤差に対してより敏感である:直交化は特異値の大きさを捨て、方向情報のみを保持するため、特異ベクトル方向の小さな量子化誤差も更新で増幅される。
本研究では,方向忠実度最適化の原理に基づく低ビットMuonトレーニングフレームワークであるMuonQを提案する。
まず、前量子化正規化を適用し、各ステップが同じ大きさの量子化誤差を導入し、累積誤差が好ましい方向に進展するのを防ぐ。
第2に、電力反復により支配的な特異成分を別々に定量化する構造分解を導入し、量子化誤差が特異ベクトル方向を回転させるのではなく特異値だけを摂動させることを保証する。
第3に、高分解能を高密度に充填された運動量値に割り当てるために、$μ$-law companding Quantizationを採用し、量子化の目的を外れ値保存から高密度領域の微分可能性へシフトさせる。
これらの技術はムオンのオプティマイザ状態の安定な4ビット量子化を可能にする。
GPTスタイルとLLaMAスタイルのモデルの事前トレーニング実験では、4ビット精度のMuonQがトレーニング損失とダウンストリームタスク精度の両方でフル精度のMuonと密接に一致し、オプティマイザ状態メモリを最大7.3$\times$に削減している。
私たちのコードはhttps://github.com/YupengSu/MuonQ.comから入手可能です。
関連論文リスト
- Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning [18.570226339282296]
Muonは、大規模な基礎モデル事前トレーニングのための有望な計算として登場した。
メモリオーバーヘッドが無視できるMuon$2$のゲインをほとんど保存するメモリ効率の係数化変種であるMuon$2$を提案する。
論文 参考訳(メタデータ) (2026-04-11T00:27:40Z) - ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization [32.97211471008323]
我々は、勾配、重み、状態の浮動小数点量子化の下で、アダムやムオンを含む適応収束の最初の理論的枠組みを導入する。
両アルゴリズムが完全精度のアルゴリズムに近い収束率を維持していることを示す。
我々はさらに、Adamが$beta から 1$ への依存のため、高い感度と第二モーメントの量子化重みに敏感であることを明らかにし、Muon はより弱いエラー制御を必要とするため、より堅牢である可能性がある。
論文 参考訳(メタデータ) (2025-10-24T10:16:23Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - Effective Quantization of Muon Optimizer States [6.256712531304834]
ブロックワイド量子化を用いた8ビットミューオンを導入し,線形スキームと動的スキームの両方をサポートする。
8ビットのMuonは、両方の安定性を維持しつつ、フル精度のMuonに比べてメモリフットプリントが74%削減されていることを実証した。
大規模な実験では、8ビットのMuonがMuonのパフォーマンスと密に一致し、AdamWと8ビットのAdamWが4B FineWebトークン上で1.6Bモデルの事前トレーニングを行う。
論文 参考訳(メタデータ) (2025-09-27T04:31:11Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization [73.60493264901359]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。