論文の概要: GEMQ: Global Expert-Level Mixed-Precision Quantization for MoE LLMs
- arxiv url: http://arxiv.org/abs/2605.23078v1
- Date: Thu, 21 May 2026 22:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.122374
- Title: GEMQ: Global Expert-Level Mixed-Precision Quantization for MoE LLMs
- Title(参考訳): GEMQ: MoE LLMのグローバルエキスパートレベル混合精度量子化
- Authors: Jianing Deng, Song Wang, Dongwei Wang, Zijie Liu, Tianlong Chen, Huanrui Yang, Jingtong Hu,
- Abstract要約: 混合精度量子化は、その重要性に基づいて、専門家のビット幅を割り当てることで、メモリオーバーヘッドを軽減する。
既存の手法は、量子化によって誘導されるレイヤワイドな重要度推定とオーバルックルータシフトに依存している。
我々はこれらの制限を克服するために,グローバルエキスパートレベル混合精度量子化(GEMQ)を提案する。
- 参考スコア(独自算出の注目度): 40.50894372538921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts Large Language Models (MoE-LLMs) achieve strong performance but incur substantial memory overhead due to massive expert parameters. Mixed-precision quantization mitigates this cost by allocating expert-wise bit-widths based on their importance, approaching the accuracy-memory Pareto frontier and enabling extreme low-bit quantization. However, existing methods rely on layer-wise importance estimation and overlook router shifts induced by quantization, resulting in suboptimal allocation and routing. In this work, we propose Global Expert-level Mixed-precision Quantization (GEMQ) to overcome these limitations via (1) a global linear-programming formulation that captures model-wide expert importance based on quantization error analysis, and (2) efficient router fine-tuning to adapt routing to quantized experts. These components are integrated into a progressive quantization framework that iteratively refines importance estimation and allocation. Experiments demonstrate that GEMQ significantly reduces memory and accelerates inference with minimal accuracy degradation. Source code is available at https://github.com/jndeng/GEMQ .
- Abstract(参考訳): Mixture-of-Experts Large Language Models (MoE-LLMs) は強力なパフォーマンスを実現するが、大量の専門家パラメータによってメモリオーバーヘッドが大幅に増大する。
混合精度量子化(Mixed-precision Quantization)は、その重要性に基づいて専門家のビット幅を割り当て、精度メモリのParetoフロンティアに近づき、極端に低ビット量子化を可能にすることで、このコストを軽減します。
しかし、既存の手法は、量子化によって引き起こされるルータシフトを層単位での重要度推定と見落としに頼っているため、サブ最適配置とルーティングが生じる。
本研究では,(1)量子化誤差解析に基づくモデル全体のエキスパートの重要度を捉えたグローバル線形プログラミングの定式化,(2)量子化の専門家へのルーティングに適応する効率的なルータの微調整により,これらの制限を克服するために,グローバルエキスパートレベル混合精度量子化(GEMQ)を提案する。
これらのコンポーネントは、重要度の推定と割り当てを反復的に洗練するプログレッシブ量子化フレームワークに統合される。
実験により、GEMQはメモリを大幅に削減し、最小の精度で推論を加速することが示された。
ソースコードはhttps://github.com/jndeng/GEMQ で入手できる。
関連論文リスト
- Efficient Quantization of Mixture-of-Experts with Theoretical Generalization Guarantees [13.67631667766697]
Sparse Mixture-of-Experts (MoE) は、入力毎に少数の専門家のみを活性化することにより、言語とビジョンモデルのスケーリングを効率的に行うことができる。
MoEは推論中にかなりのメモリオーバーヘッドを発生させる。
本稿では,学習中のルータl2ノルムの変化に基づいて,各専門家にビット幅を割り当てる,理論的に基礎付けられた混合精度戦略を提案する。
論文 参考訳(メタデータ) (2026-04-07T23:17:23Z) - ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。
混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-19T12:16:40Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - Channel-Wise Mixed-Precision Quantization for Large Language Models [47.00361921910259]
大規模言語モデル(LLM)は、幅広い言語タスクで顕著な成功を収めている。
重みのみの量子化は、LCMのメモリフットプリントを削減するための有望な解決策である。
本稿では,CMPQ(Channel-Wise Mixed-Precision Quantization)を提案する。
論文 参考訳(メタデータ) (2024-10-16T21:34:41Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。