論文の概要: Effective Quantization of Muon Optimizer States
- arxiv url: http://arxiv.org/abs/2509.23106v1
- Date: Sat, 27 Sep 2025 04:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.04329
- Title: Effective Quantization of Muon Optimizer States
- Title(参考訳): ミューオン最適化状態の有効量子化
- Authors: Aman Gupta, Rafael Celente, Abhishek Shivanna, D. T. Braithwaite, Gregory Dexter, Shao Tang, Hiroto Udagawa, Daniel Silva, Rohan Ramanath, S. Sathiya Keerthi,
- Abstract要約: ブロックワイド量子化を用いた8ビットミューオンを導入し,線形スキームと動的スキームの両方をサポートする。
8ビットのMuonは、両方の安定性を維持しつつ、フル精度のMuonに比べてメモリフットプリントが74%削減されていることを実証した。
大規模な実験では、8ビットのMuonがMuonのパフォーマンスと密に一致し、AdamWと8ビットのAdamWが4B FineWebトークン上で1.6Bモデルの事前トレーニングを行う。
- 参考スコア(独自算出の注目度): 6.256712531304834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Muon optimizer, based on matrix orthogonalization, has recently shown faster convergence and up to 2x computational efficiency over AdamW in LLM pretraining. Like AdamW, Muon is stateful, requiring storage of both model weights and accumulated gradients. While 8-bit AdamW variants mitigate this overhead using blockwise quantization, they are typically stable only under dynamic quantization - which improves stability on linear quantization for extreme values. In this paper, we introduce the 8-bit Muon optimizer using blockwise quantization, supporting both linear and dynamic schemes. We demonstrate that 8-bit Muon maintains stability under both, while delivering $\sim$74\% reduction in memory footprint compared to full-precision Muon. In extensive experiments, 8-bit Muon closely matches the performance of Muon while outperforming AdamW and 8-bit AdamW in pre-training a 1.6B model on 4B FineWeb tokens. It also shows competitive results when fine-tuning the Llama 3.2 3B model on post-training data. We also provide a theoretical perspective to help explain this robustness under quantization.
- Abstract(参考訳): 行列直交化に基づくMuonオプティマイザは、最近、LLM事前学習においてAdamWよりも高速な収束と最大2倍の計算効率を示した。
AdamWと同様、Muonはステートフルで、モデルウェイトと累積勾配の両方を格納する必要がある。
8ビットのAdamW変種はこのオーバーヘッドをブロックワイズ量子化を用いて緩和するが、通常は動的量子化の下でのみ安定であり、極端な値に対する線形量子化の安定性を改善する。
本稿では,ブロックワイド量子化を用いた8ビットMuonオプティマイザを提案する。
8ビットのMuonは、どちらも安定性を維持しつつ、メモリフットプリントをフル精度のMuonと比較すると、$\sim$74\%の削減を実現しています。
大規模な実験では、8ビットのMuonがMuonのパフォーマンスと密に一致し、AdamWと8ビットのAdamWが4B FineWebトークン上で1.6Bモデルの事前トレーニングを行う。
また、後トレーニングデータに基づいてLlama 3.2 3Bモデルを微調整する際の競合結果も示している。
また、量子化の下でのこの堅牢性を説明するための理論的視点も提供します。
関連論文リスト
- Binary Quantization For LLMs Through Dynamic Grouping [13.578307208515819]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
16ビットのBrain Floatから-1,1の1ビットの表現にモデル重みを圧縮するバイナリ量子化は、ストレージと推論コストを大幅に削減する。
本稿では,2値量子化に適した新しい最適化目標と,これを効果的に実現するための3つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-03T06:36:21Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - Analyzing Quantization in TVM [0.0]
TVMは重量を定量化し、低ビット計算をサポートする。
8ビットの量子化は通常、全精度推論時間の約50%を達成することが期待されている。
本研究の目的は,TVMにおける8ビット量子化の互換性と最適化の機会を評価することにある。
論文 参考訳(メタデータ) (2023-08-19T07:39:46Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。