論文の概要: BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization
- arxiv url: http://arxiv.org/abs/2606.00079v1
- Date: Fri, 22 May 2026 13:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.548081
- Title: BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization
- Title(参考訳): BitsMoE: MoE LLM量子化のための効率的なスペクトルエネルギー誘導ビット割り当て
- Authors: Jiayu Zhao, Zihan Teng, Minhao Fan, Tianrui Ma, Wentao Ren, Song Chen, Weichen Liu,
- Abstract要約: Mixture-of-Experts (MoE) 大規模言語モデルでは、スパース専門家アクティベーションによるトーケン毎の計算が削減される。
既存のMoE圧縮法は、超低ビット方式では困難である。
我々は、MoE LLM量子化のためのスペクトルエネルギー誘導ビット割り当てフレームワークBitsMoEを提案する。
- 参考スコア(独自算出の注目度): 5.878850231726241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) large language models reduce per-token computation through sparse expert activation, but their deployment remains memory-intensive because all expert weights must be kept resident in memory. Existing MoE compression methods struggle in the ultra-low-bit regime: pruning irreversibly removes model capacity, while coarse-grained quantization fails to allocate bits according to heterogeneous expert and weight-direction importance. We propose BitsMoE, a spectral-energy-guided bit-allocation framework for MoE LLM quantization. BitsMoE decomposes each MoE layer by SVD into a shared basis and expert-specific spectral factors, retaining the shared basis without quantization to preserve common cross-expert structure and using the expert-specific factors as fine-grained quantization units. To determine the bit-width of each unit, BitsMoE formulates spectrum-wise mixed-precision quantization as an activation-aware reconstruction surrogate and solves an integer linear program that minimizes estimated reconstruction loss under a fixed bit budget. Experiments across multiple MoE LLMs show that BitsMoE substantially reduces downstream task accuracy degradation in ultra-low-bit regimes. Under 2-bit quantization on Qwen3-30B-A3B-Base, BitsMoE accelerates quantization by 12.3$\times$, improves average accuracy by 27.83 percentage points, and increases decoding speed by 1.76$\times$ over GPTQ. Our model and code are publicly available at https://github.com/zjiayu064/BitsMoE.
- Abstract(参考訳): Mixture-of-Experts (MoE) 大規模言語モデルでは、スパース専門家アクティベーションを通じてトーケン毎の計算が削減されるが、すべての専門家の重みをメモリ内に保持しなければならないため、その展開はメモリ集約的である。
プルーニングはモデル容量を不可逆的に除去するが、粗い量子化は不均一な専門家と重み付けの重要度に応じてビットを割り当てることに失敗する。
我々は、MoE LLM量子化のためのスペクトルエネルギー誘導ビット割り当てフレームワークBitsMoEを提案する。
BitsMoEは、各MoE層をSVDによって共有基底と専門家固有のスペクトル因子に分解し、共有基底を量子化せずに保持し、共通のクロスエキスパート構造を保持し、専門家固有の因子を微粒化量子化単位として使用する。
各ユニットのビット幅を決定するために、BitsMoEは、アクティベーション対応再構成サロゲートとしてスペクトルワイド混合精度量子化を定式化し、固定ビット予算の下で推定された再構成損失を最小限に抑える整数線形プログラムを解く。
複数のMOE LLMに対する実験により、BitsMoEは超低ビット状態における下流タスクの精度劣化を著しく低減することが示された。
Qwen3-30B-A3B-Base上の2ビット量子化の下で、BitsMoEは量子化を12.3$\times$で加速し、平均精度を27.83ポイント改善し、復号速度を1.76$\times$で向上させる。
私たちのモデルとコードはhttps://github.com/zjiayu064/BitsMoE.comで公開されています。
関連論文リスト
- MoBiE: Efficient Inference of Mixture of Binary Experts under Post-Training Quantization [11.19613037505662]
MoBiEは、Mixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)用に設計されたバイナライズフレームワークである。
MoBiEは、複数のMoEベースのLLMとベンチマークで最先端のバイナリメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-08T08:12:26Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts [47.01697456105496]
Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップする有望な方法である。
MoEは大きなパラメータサイズのためにメモリオーバーヘッドに悩まされる。
トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。