論文の概要: MGVQ: Synergizing Multi-dimensional Sensitivity-Aware and Gradient-Hessian Fusion for Vector Quantization
- arxiv url: http://arxiv.org/abs/2605.24019v1
- Date: Wed, 20 May 2026 06:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.538058
- Title: MGVQ: Synergizing Multi-dimensional Sensitivity-Aware and Gradient-Hessian Fusion for Vector Quantization
- Title(参考訳): MGVQ:ベクトル量子化のための多次元感度認識とグラディエントヘッセント融合の相乗化
- Authors: Zhong Wang, Zukang Xu, Xing Hu, Dawei Yang,
- Abstract要約: 本研究は,多次元感性知覚と勾配ヘッセン核融合を統合した新しいベクトル量子化フレームワークMGVQを提案する。
2ビット量子化設定では、MGVQは既存の先進的なポストトレーニング量子化手法を大幅に上回り、4.9ポイントの最大精度向上を達成する。
提案手法は, 安定かつ効率的な超低ビットVLM量子化を実現し, 資源制限環境におけるマルチモーダル大規模モデルの実用的展開を大幅に促進する。
- 参考スコア(独自算出の注目度): 14.071776510862824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) achieve outstanding performance, yet their huge model size severely hinders deployment on edge devices with limited resources. As an efficient model compression technique, vector quantization (VQ) excels in ultra-low-bit representation, which maps model weights to discrete codewords in a compact codebook to cut memory consumption and transmission overhead while preserving model capability. Direct VQ application to VLMs still has two core limitations. First, cross-modality weight distribution differences brought by visual and textual inputs cannot be well fitted by a single unified codebook. Second, current second-order error compensation ignores first-order gradient information, causing weight deviation from pre-trained optimal states, gradient drift and biased compensation results. This work proposes MGVQ, a novel vector quantization framework integrating multi-dimensional sensitivity perception and gradient-Hessian fusion. It consists of two core modules: sensitivity-guided structured mixed-precision quantization dynamically assigns different bit-widths according to channel sensitivity via combined global and local sensitivity analysis for refined resource allocation; gradient-aware second-order error compensation embeds first-order gradients into error correction, and adopts Kronecker and Block-LDL decomposition to ensure low computational cost. Extensive experiments on mainstream VLMs including LLaVA-onevision, InternVL2 and Qwen2-VL verify the effectiveness of MGVQ. In 2-bit quantization settings, MGVQ surpasses existing advanced post-training quantization methods significantly, achieving a maximum accuracy improvement of 4.9 points (71.4% vs 67.0% on InternVL2-26B). The proposed method realizes stable and efficient ultra-low-bit VLM quantization, greatly promoting the practical deployment of multimodal large models in resource-limited environments.
- Abstract(参考訳): VLM(Vision-Language Models)は、優れたパフォーマンスを実現しているが、その巨大なモデルサイズは、限られたリソースを持つエッジデバイスへのデプロイメントを著しく妨げている。
効率的なモデル圧縮技術として、ベクトル量子化(VQ)は超低ビット表現に優れ、モデル重みをコンパクトなコードブックの離散コードワードにマッピングし、モデル能力を維持しながらメモリ消費と送信オーバーヘッドを削減する。
VLMへの直接VQアプリケーションには、2つのコア制限がある。
第一に、視覚的およびテキスト的入力によってもたらされるモダリティ間の重み分布の差は、単一の統一コードブックではうまく適応できない。
第2に、現在の2階誤差補償は1階勾配情報を無視し、事前訓練された最適状態、勾配ドリフト、偏り補償結果から重みを逸脱させる。
本研究は,多次元感性知覚と勾配ヘッセン核融合を統合した新しいベクトル量子化フレームワークMGVQを提案する。
このモジュールは2つのコアモジュールから構成される: 感度誘導型構造化混合精度量子化(英語版) チャネル感度に応じて異なるビット幅を動的に割り当てる 改良されたリソース割り当てのためのグローバルおよびローカルの感度分析(英語版) 勾配認識二階誤差補償(英語版) 誤り訂正に一階勾配を埋め込む クロネッカーとブロック-LDL分解(英語版) を用いる。
LLaVA-onevision、InternVL2、Qwen2-VLといった主流VLMの広範な実験によりMGVQの有効性が検証された。
2ビット量子化設定では、MGVQは既存の先進的なポストトレーニング量子化手法を大幅に上回り、4.9ポイント(InternVL2-26Bでは71.4%対67.0%)の最大精度向上を達成する。
提案手法は, 安定かつ効率的な超低ビットVLM量子化を実現し, 資源制限環境におけるマルチモーダル大規模モデルの実用的展開を大幅に促進する。
関連論文リスト
- Q-ARVD: Quantizing Autoregressive Video Diffusion Models [98.30793646153926]
自動回帰ビデオ拡散モデル(ARVD)は、ストリーミングビデオ生成のための有望なアーキテクチャとして登場した。
しかし、AVVDのかなりの推論コストは、実際的な展開の大きな障害であり続けている。
正確なAVVD量子化のための新しいフレームワークであるQ-ARVDを提案する。
論文 参考訳(メタデータ) (2026-05-20T11:58:30Z) - Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients [36.01708036519368]
大規模視覚言語モデル (LVLM) は、マルチモーダル相互作用を必要とする下流タスクにおいて、顕著な成功を収めた。
既存のLVLM量子化法は、複雑なクロストークン相互作用を捉えるのに失敗するモダリティレベルでトークン感度を測定する。
機械的解釈可能性における公理的帰属に着想を得て、量子化対応統合勾配(QIG)の微粒化量子化戦略を導入する。
提案手法はLLaVA-onevision-7Bの平均精度を1.60%向上させ,LLaVA-onevision-7Bの完全精度とのギャップを1.33%に短縮する。
論文 参考訳(メタデータ) (2026-03-18T15:03:43Z) - LSGQuant: Layer-Sensitivity Guided Quantization for One-Step Diffusion Real-World Video Super-Resolution [52.627063566555194]
本稿では,一段階拡散に基づく実世界VSRのための層感度誘導量子化手法LSGQuantを紹介する。
本手法は,ビデオトークンのアクティベーションに適合する動的レンジ適応量子化器 (DRAQ) を備える。
提案手法は,完全精度のオリジンモデルに対してほぼ性能が良く,既存の量子化手法をはるかに上回っている。
論文 参考訳(メタデータ) (2026-02-03T06:53:19Z) - KBVQ-MoE: KLT-guided SVD with Bias-Corrected Vector Quantization for MoE Large Language Models [13.773876289947323]
ベクトル量子化(VQ)は、大規模言語モデル(LLM)における超低ビット圧縮に有望なアプローチを提供する
KBVQ-MoE は,MoE ベースの LLM の超低ビット量子化を実現する新しい VQ フレームワークである。
さまざまなMOE LLMの実験により、KBVQ-MoEは既存の量子化法よりも精度がかなり高いことを示した。
論文 参考訳(メタデータ) (2026-01-30T06:57:17Z) - RSAVQ: Riemannian Sensitivity-Aware Vector Quantization for Large Language Models [17.273189597394072]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
指数関数的に増加するパラメータは、リソース制約のあるデバイスへの展開に重大な課題をもたらす。
LLMの超低ビット量子化を実現する新しいフレームワークであるRSAVQを提案する。
論文 参考訳(メタデータ) (2025-09-24T01:40:32Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文 参考訳(メタデータ) (2022-02-18T03:38:12Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。