論文の概要: Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients
- arxiv url: http://arxiv.org/abs/2603.17809v1
- Date: Wed, 18 Mar 2026 15:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.76984
- Title: Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients
- Title(参考訳): 量子化を考慮した大規模視覚言語モデルの微粒化後量子化
- Authors: Ziwei Xiang, Fanhu Zeng, Hongjian Fang, Rui-Qi Wang, Renxing Chen, Yanan Zhu, Yi Chen, Peipei Yang, Xu-Yao Zhang,
- Abstract要約: 大規模視覚言語モデル (LVLM) は、マルチモーダル相互作用を必要とする下流タスクにおいて、顕著な成功を収めた。
既存のLVLM量子化法は、複雑なクロストークン相互作用を捉えるのに失敗するモダリティレベルでトークン感度を測定する。
機械的解釈可能性における公理的帰属に着想を得て、量子化対応統合勾配(QIG)の微粒化量子化戦略を導入する。
提案手法はLLaVA-onevision-7Bの平均精度を1.60%向上させ,LLaVA-onevision-7Bの完全精度とのギャップを1.33%に短縮する。
- 参考スコア(独自算出の注目度): 36.01708036519368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision Language Models (LVLMs) have achieved remarkable success in a range of downstream tasks that require multimodal interaction, but their capabilities come with substantial computational and memory overhead, which hinders practical deployment. Among numerous acceleration techniques, post-training quantization is a popular and effective strategy for reducing memory cost and accelerating inference. However, existing LVLM quantization methods typically measure token sensitivity at the modality level, which fails to capture the complex cross-token interactions and falls short in quantitatively measuring the quantization error at the token level. As tokens interact within the model, the distinction between modalities gradually diminishes, suggesting the need for fine-grained calibration. Inspired by axiomatic attribution in mechanistic interpretability, we introduce a fine-grained quantization strategy on Quantization-aware Integrated Gradients (QIG), which leverages integrated gradients to quantitatively evaluate token sensitivity and push the granularity from modality level to token level, reflecting both inter-modality and intra-modality dynamics. Extensive experiments on multiple LVLMs under both W4A8 and W3A16 settings show that our method improves accuracy across models and benchmarks with negligible latency overhead. For example, under 3-bit weight-only quantization, our method improves the average accuracy of LLaVA-onevision-7B by 1.60%, reducing the gap to its full-precision counterpart to only 1.33%. The code is available at https://github.com/ucas-xiang/QIG.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、マルチモーダルな相互作用を必要とする下流タスクで顕著な成功を収めてきたが、その能力は計算とメモリのオーバーヘッドが大きくなり、実際のデプロイメントを妨げている。
多くの加速技術の中で、後学習量子化は、メモリコストを削減し、推論を加速するための一般的かつ効果的な戦略である。
しかし、既存のLVLM量子化法は、通常、モダリティレベルでトークンの感度を測るが、これは複雑なクロストークン相互作用を捉えるのに失敗し、トークンレベルでの量子化誤差を定量的に測定するのに不足する。
トークンがモデル内で相互作用するにつれて、モダリティの区別は徐々に減少し、きめ細かいキャリブレーションの必要性が示唆される。
量子化を意識した積分勾配(QIG)の微粒化戦略を導入し, 積分勾配を利用してトークンの感度を定量的に評価し, モダリティレベルからトークンレベルへ粒度を推算し, モダリティ間およびモダリティ内力学の両方を反映する。
W4A8 と W3A16 の両設定下での複数の LVLM の大規模な実験により,本手法は遅延オーバーヘッドを無視できるモデルやベンチマークの精度を向上することを示した。
例えば、3ビットの重みのみの量子化の下では、LLaVA-onevision-7Bの平均精度を1.60%向上させ、その完全精度とのギャップを1.33%に短縮する。
コードはhttps://github.com/ucas-xiang/QIGで公開されている。
関連論文リスト
- QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models [21.01470580488428]
視覚言語アクション(VLA)モデルは、エンボディエージェントの認識、言語、制御を統一する。
トレーニング不要なポストトレーニング量子化フレームワークQuantVLAを紹介する。
これはVLAシステムにおける最初のPTQアプローチであり、拡散トランスフォーマー(DiT)アクションヘッドの定量化に成功した最初の方法である。
論文 参考訳(メタデータ) (2026-02-23T19:55:54Z) - LSGQuant: Layer-Sensitivity Guided Quantization for One-Step Diffusion Real-World Video Super-Resolution [52.627063566555194]
本稿では,一段階拡散に基づく実世界VSRのための層感度誘導量子化手法LSGQuantを紹介する。
本手法は,ビデオトークンのアクティベーションに適合する動的レンジ適応量子化器 (DRAQ) を備える。
提案手法は,完全精度のオリジンモデルに対してほぼ性能が良く,既存の量子化手法をはるかに上回っている。
論文 参考訳(メタデータ) (2026-02-03T06:53:19Z) - Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。
混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-19T12:16:40Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。