論文の概要: Rethinking Practical and Efficient Quantization Calibration for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.07899v1
- Date: Sun, 08 Feb 2026 10:19:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.859343
- Title: Rethinking Practical and Efficient Quantization Calibration for Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルのための実用的で効率的な量子化校正の再考
- Authors: Zhenhao Shang, Haizhao Jing, Guoting Wei, Haokui Zhang, Rong Xiao, Jianqing Gao, Peng Wang,
- Abstract要約: トレーニング後の量子化(PTQ)は、微調整なしで大規模言語モデルをデプロイするための主要なアプローチである。
token-level Importance-aware Layer-wise Quantization framework (TLQ)を提案する。
TLQは2つのモデル、3つのモデルスケール、および2つの量子化設定で評価され、すべての設定で一貫してパフォーマンス改善が達成される。
- 参考スコア(独自算出の注目度): 11.411411301593011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) is a primary approach for deploying large language models without fine-tuning, and the quantized performance is often strongly affected by the calibration in PTQ. By contrast, in vision-language models (VLMs), substantial differences between visual and text tokens in their activation distributions and sensitivities to quantization error pose significant challenges for effective calibration during PTQ. In this work, we rethink what PTQ calibration should align with in VLMs and propose the Token-level Importance-aware Layer-wise Quantization framework (TLQ). Guided by gradient information, we design a token-level importance integration mechanism for quantization error, and use it to construct a token-level calibration set, enabling a more fine-grained calibration strategy. Furthermore, TLQ introduces a multi-GPU, quantization-exposed layer-wise calibration scheme. This scheme keeps the layer-wise calibration procedure consistent with the true quantized inference path and distributes the complex layer-wise calibration workload across multiple RTX3090 GPUs, thereby reducing reliance on the large memory of A100 GPUs. TLQ is evaluated across two models, three model scales, and two quantization settings, consistently achieving performance improvements across all settings, indicating its strong quantization stability. The code will be released publicly.
- Abstract(参考訳): 学習後の量子化(PTQ)は、微調整なしで大規模言語モデルをデプロイするための主要なアプローチであり、その量子化性能はPTQの校正によって強く影響されることが多い。
対照的に、視覚言語モデル(VLM)では、アクティベーション分布における視覚トークンとテキストトークンの実質的な違いと量子化誤差に対する感受性は、PTQ中の効果的な校正に重大な課題をもたらす。
本稿では, PTQキャリブレーションとVLMの整合性を再考し, Token-level Importance-aware Layer-wise Quantization framework (TLQ)を提案する。
勾配情報によって導かれ、量子化誤差に対するトークンレベルの重要度積分機構を設計し、それを用いてトークンレベルの校正セットを構築し、よりきめ細かい校正戦略を可能にする。
さらに、TLQはマルチGPU、量子化露光層ワイドキャリブレーション方式を導入している。
このスキームは、真の量子化推論パスと整合性を維持し、複数のRTX3090 GPUに複雑な層ワイドキャリブレーションワークロードを分散することにより、A100 GPUの大規模なメモリへの依存を減らす。
TLQは2つのモデル、3つのモデルスケール、2つの量子化設定で評価され、その強い量子化安定性を示す。
コードは公開されます。
関連論文リスト
- RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。