論文の概要: KBVQ-MoE: KLT-guided SVD with Bias-Corrected Vector Quantization for MoE Large Language Models
- arxiv url: http://arxiv.org/abs/2602.11184v1
- Date: Fri, 30 Jan 2026 06:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.736746
- Title: KBVQ-MoE: KLT-guided SVD with Bias-Corrected Vector Quantization for MoE Large Language Models
- Title(参考訳): KBVQ-MoE: Bias-Corrected Vector Quantization を用いた KLT-Guided SVD for MoE Large Language Models
- Authors: Zukang Xu, Zhixiong Zhao, Xing Hu, Zhixuan Chen, Dawei Yang,
- Abstract要約: ベクトル量子化(VQ)は、大規模言語モデル(LLM)における超低ビット圧縮に有望なアプローチを提供する
KBVQ-MoE は,MoE ベースの LLM の超低ビット量子化を実現する新しい VQ フレームワークである。
さまざまなMOE LLMの実験により、KBVQ-MoEは既存の量子化法よりも精度がかなり高いことを示した。
- 参考スコア(独自算出の注目度): 13.773876289947323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts (MoE) models have achieved great success by significantly improving performance while maintaining computational efficiency through sparse expert activation. However, their enormous parameter sizes and memory demands pose major challenges for deployment in resource-constrained environments. Vector Quantization (VQ) offers a promising approach for ultra-low-bit compression in Large Language Models (LLMs) by leveraging a codebook, where weight vectors are mapped to the most similar discrete codewords. Yet, directly applying VQ to MoEs often leads to substantial performance degradation due to two critical obstacles: (1) redundant representations among experts cause VQ to repeatedly quantize similar representations for each expert, resulting in inefficient use of limited codebook capacity; and (2) cumulative output bias is amplified by expert aggregation in MoE layers, leading to distributional shifts in the quantized outputs. To address these issues, we propose KBVQ-MoE, a novel VQ framework to enhance extremely low-bit quantization for MoE-based LLMs. KBVQ-MoE integrates two techniques: (1) input-driven redundancy elimination, where a Karhunen-Loeve Transform (KLT) guided singular value decomposition (SVD) extracts dominant weight components and shares them across experts; and (2) bias-corrected output stabilization, where vector quantization is applied only to expert-specific (non-redundant) representations and the quantized outputs are corrected via channel-wise affine compensation. Experiments on various MoE LLMs demonstrate that KBVQ-MoE preserves accuracy substantially better than existing quantization methods. For example, 3-bit quantization of Qwen1.5-MoE-A2.7B achieves an average accuracy of 67.99, nearly identical to the FP16 baseline of 68.07, underscoring KBVQ-MoE's potential for efficient deployment on edge devices and other resource-constrained platforms.
- Abstract(参考訳): ミキチャー・オブ・エキスパート(MoE)モデルは、スパース・エキスパート・アクティベーションを通じて計算効率を保ちながら、性能を大幅に改善することで大きな成功を収めた。
しかし、その膨大なパラメータサイズとメモリ要求は、リソース制約のある環境でのデプロイメントにおいて大きな課題を引き起こします。
ベクトル量子化(VQ)は、重みベクトルを最もよく似た離散コードワードにマッピングするコードブックを活用することで、LLM(Large Language Models)における超低ビット圧縮に有望なアプローチを提供する。
しかし、VQをMoEに直接適用することは、(1)専門家間の冗長表現により、VQが各専門家の類似表現を反復的に定量化し、制限されたコードブック容量の非効率な使用をもたらすこと、(2)累積出力バイアスはMoE層のエキスパートアグリゲーションによって増幅され、量子化された出力の分散シフトをもたらすこと、の2つの重大な障害により、パフォーマンスが著しく低下する。
これらの問題に対処するため, KBVQ-MoE という, MoE ベースの LLM の極低ビット量子化を実現する新しい VQ フレームワークを提案する。
KBVQ-MoEは,(1)入力駆動冗長性除去,(KLT)Karhunen-Loeve変換による特異値分解(SVD)が支配的な重み成分を抽出して専門家間で共有する,(2)ベクトル量子化が専門家固有の(非冗長)表現にのみ適用され,量子化された出力がチャネルワイドアフィン補償によって補正される,2つの手法を統合する。
さまざまなMOE LLMの実験により、KBVQ-MoEは既存の量子化法よりも精度がかなり高いことを示した。
例えば、Qwen1.5-MoE-A2.7Bの3ビット量子化は平均精度67.99で、FP16ベースライン68.07とほぼ同じであり、KBVQ-MoEがエッジデバイスや他のリソース制約のあるプラットフォームに効率的に展開する可能性を示している。
関連論文リスト
- VEQ: Modality-Adaptive Quantization for MoE Vision-Language Models [41.557274086591924]
PTQ(Post-Training Quantization)は、大量のメモリと計算オーバーヘッドに対処する効果的なトレーニング不要の手法である。
ビジュアルエキスパート量子化(VEQ)は、クロスモーダルな違いと専門家の不均一性に対応するために設計された、デュアルアウェアな量子化フレームワークである。
本手法は,従来のSOTA量子化法と比較して,Kim-VLでは2.04%,Qwen3-VLでは3.09%の精度向上を実現している。
論文 参考訳(メタデータ) (2026-02-01T05:53:09Z) - Rethinking Output Alignment For 1-bit Post-Training Quantization of Large Language Models [41.677469535447024]
大きな言語モデル(LLM)は、幅広いNLPタスクに対して強力なパフォーマンスを提供するが、その巨大なサイズは、リソースに制約のあるデバイスへのデプロイメントを妨げる。
トレーニング後の量子化(PTQ)は、リトレーニングを必要とせず、キャリブレーションのための小さなデータセットのみを必要とするため、その効率性に広く採用されている。
ポストトレーニング量子化の最近の進歩は、サブ4ビット法でさえオリジナルのモデル性能のほとんどを維持できることを示した。
論文 参考訳(メタデータ) (2025-12-25T12:39:36Z) - R2Q: Towards Robust 2-Bit Large Language Models via Residual Refinement Quantization [20.861971198175674]
Residual Refinement Quantization (R2Q)は、2つのシーケンシャルな1ビットサブ量子化に分解する新しい2ビット量子化フレームワークである。
R2Qは、細粒度と粗粒度の両方で既存の2ビット量子化法より一貫して優れている。
論文 参考訳(メタデータ) (2025-11-21T12:39:44Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。
後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。
本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-02T08:51:55Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。