論文の概要: VEQ: Modality-Adaptive Quantization for MoE Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.01037v1
- Date: Sun, 01 Feb 2026 05:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.548658
- Title: VEQ: Modality-Adaptive Quantization for MoE Vision-Language Models
- Title(参考訳): VEQ:Modality-Adaptive Quantization for MoE Vision-Language Models
- Authors: Guangshuo Qin, Zhiteng Li, Zheng Chen, Weihang Zhang, Linghe Kong, Yulun Zhang,
- Abstract要約: PTQ(Post-Training Quantization)は、大量のメモリと計算オーバーヘッドに対処する効果的なトレーニング不要の手法である。
ビジュアルエキスパート量子化(VEQ)は、クロスモーダルな違いと専門家の不均一性に対応するために設計された、デュアルアウェアな量子化フレームワークである。
本手法は,従来のSOTA量子化法と比較して,Kim-VLでは2.04%,Qwen3-VLでは3.09%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 41.557274086591924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts(MoE) Vision-Language Models (VLMs) offer remarkable performance but incur prohibitive memory and computational costs, making compression essential. Post-Training Quantization (PTQ) is an effective training-free technique to address the massive memory and computation overhead. Existing quantization paradigms fall short as they are oblivious to two critical forms of heterogeneity: the inherent discrepancy between vision and language tokens, and the non-uniform contribution of different experts. To bridge this gap, we propose Visual Expert Quantization (VEQ), a dual-aware quantization framework designed to simultaneously accommodate cross-modal differences and heterogeneity between experts. Specifically, VEQ incorporates 1)Modality-expert-aware Quantization, which utilizes expert activation frequency to prioritize error minimization for pivotal experts, and 2)Modality-affinity-aware Quantization, which constructs an enhanced Hessian matrix by integrating token-expert affinity with modality information to guide the calibration process. Extensive experiments across diverse benchmarks verify that VEQ consistently outperforms state-of-the-art baselines. Specifically, under the W3A16 configuration, our method achieves significant average accuracy gains of 2.04\% on Kimi-VL and 3.09\% on Qwen3-VL compared to the previous SOTA quantization methods, demonstrating superior robustness across various multimodal tasks. Our code will be available at https://github.com/guangshuoqin/VEQ.
- Abstract(参考訳): Mixture-of-Experts (MoE) Vision-Language Models (VLMs) は優れた性能を提供するが、メモリと計算コストが不必要であり、圧縮が不可欠である。
PTQ(Post-Training Quantization)は、大量のメモリと計算オーバーヘッドに対処する効果的なトレーニング不要の手法である。
既存の量子化パラダイムは、視覚と言語トークンの固有の相違と、異なる専門家による一様でない貢献という、2つの重要な異種性に偏っているため、不足している。
このギャップを埋めるために、我々は、専門家間の相互モードの違いと異質性に同時に対応するように設計されたデュアルアウェアな量子化フレームワークであるVisual Expert Quantization (VEQ)を提案する。
具体的には, 1) 専門家アクティベーション周波数を利用して重要な専門家の誤り最小化を優先するModality-expert-aware Quantizationと, 2) キャリブレーション過程を導くためにトークン-専門家親和性を統合することで拡張されたヘッセン行列を構成するModality-affinity-aware Quantizationが組み込まれている。
様々なベンチマークにわたる大規模な実験は、VEQが一貫して最先端のベースラインを上回っていることを検証する。
具体的には,従来のSOTA量子化法と比較して,Kim-VLでは2.04\%,Qwen3-VLでは3.09\%の精度向上を実現し,様々なマルチモーダルタスクにおいて優れたロバスト性を示す。
私たちのコードはhttps://github.com/guangshuoqin/VEQ.comで公開されます。
関連論文リスト
- Qwen3-VL Technical Report [153.3964813640593]
Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。
最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。
Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
論文 参考訳(メタデータ) (2025-11-26T17:59:08Z) - SPEED-Q: Staged Processing with Enhanced Distillation towards Efficient Low-bit On-device VLM Quantization [6.872509247180761]
VLM(Vision-Language Models)は、低レイテンシとプライバシ保護のインテリジェントなアプリケーションを実現するために不可欠である。
VLMモデルの低ビット量化のための新しいフレームワークであるSPEED-Qを提案する。
Speedy-Qは2ビット設定で既存の量子化手法よりも最大6倍高い精度を達成する。
論文 参考訳(メタデータ) (2025-11-12T02:47:24Z) - MoPEQ: Mixture of Mixed Precision Quantized Experts [0.1262792599323502]
混合精度量子化(Mixed Precision Quantization)は、モデル内の層感度と重要性に基づいて、LLM/VLMの異なる層に異なる精度を割り当てる。
本稿では,各専門家に最適なビット幅を割り当てるポストトレーニング量子化アルゴリズムMoPEQを提案する。
本手法は,ヘッセントレース近似を用いて各専門家の感度を解析することにより,精度とモデルサイズをバランスさせる。
論文 参考訳(メタデータ) (2025-09-02T17:04:59Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization [46.40666108181214]
Mixture-of-Experts (MoE)モデルは、大規模なディープラーニングの基盤として現れている。
MoEモデルは、従来の量子化技術に挑戦する固有の複雑さを持つ。
我々は,MoE アーキテクチャに適した新しい PTQ フレームワークである EAQuant を提案する。
論文 参考訳(メタデータ) (2025-06-16T10:18:50Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。