論文の概要: VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation
- arxiv url: http://arxiv.org/abs/2508.03351v1
- Date: Tue, 05 Aug 2025 11:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.942281
- Title: VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation
- Title(参考訳): VLMQ: Hessian Augmentation による大規模ビジョンランゲージモデルのための効率的な後トレーニング量子化
- Authors: Yufei Xue, Yushi Huang, Jiawei Shao, Jun Zhang,
- Abstract要約: ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。
PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。
本稿では,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.891793681316992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) has emerged as an effective approach for compressing large models and accelerating their inference without retraining. While PTQ has been extensively studied in the context of large language models (LLMs), its applicability to vision-language models (VLMs) remains underexplored. In this paper, we identify a modality discrepancy (\emph{i.e.}, limited text tokens \emph{vs.} excessive and redundant vision tokens) of VLMs. However, existing Hessian-based LLM PTQ methods treat all tokens equally during quantization, resulting in severe performance drops when applied to VLMs. Motivated by this observation, we propose a novel importance-aware PTQ framework tailored for VLMs, dubbed VLMQ. Specifically, to address vision token redundancy, VLMQ 1) optimizes an importance-aware objective that yields an enhanced Hessian with token-level importance factors, while retaining compatibility with parallelized weight updates, and 2) ensures efficiency and effectiveness by computing these factors via a single lightweight block-wise backward pass, guided by a theoretical connection to token-level perturbations. Extensive evaluations on 8 benchmarks across 0.5B$\sim$32B VLMs demonstrate the state-of-the-art (SOTA) performance of our VLMQ, particularly under low-bit settings. For example, it achieves a substantial \textbf{16.45\%} improvement on MME-RealWorld under 2-bit quantization.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。
PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。
本稿では,モダリティの相違 (\emph{i.e.}, 限定テキストトークン \emph{vs を同定する。
VLMの過度かつ冗長な視覚トークン)。
しかし、既存のヘッセン系LPM PTQ法は、量子化中に全てのトークンを等しく処理し、VLMに適用すると性能が低下する。
本研究の目的は,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案することである。
具体的には、視覚トークンの冗長性に対処するため、VLMQ
1) 並列化重み更新との互換性を維持しつつ、トークンレベルの重要要素を持つ拡張ヘッセンを生成する重要視対象を最適化する。
2) トークンレベルの摂動に対する理論的な接続によって導かれる1つの軽量ブロック単位の後方通過によってこれらの因子を計算することにより効率と有効性を確保する。
0.5B$\sim$32B VLMの8つのベンチマークに対する大規模な評価は、特に低ビット設定下でのVLMQの最先端(SOTA)性能を示している。
例えば、2ビットの量子化の下で MME-RealWorld において、相当な \textbf{16.45\%} 改善を実現している。
関連論文リスト
- Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning [23.851747078717473]
We introduced textbfValue-guided Inference with Margin-based Reward (ViMaR), a two-stage inference framework that improves efficiency and output fidelity。
ViMaRは、より信頼性が高く、事実的正確で、詳細で、解説的なキャプションを生成し、しかも4$times$ Speedupを達成している。
論文 参考訳(メタデータ) (2025-06-18T17:23:36Z) - Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文 参考訳(メタデータ) (2025-06-09T10:45:35Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP)
軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。
ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文 参考訳(メタデータ) (2025-04-06T15:15:07Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization [15.01214559812713]
MQuantは、マルチモーダル大規模言語モデル(MLLM)の課題に取り組むために設計されたポストトレーニング量子化フレームワークである。
5つのメインストリームMLLM(Qwen-VL, Mini-V, CogVLM2)では、W4A8のMQuantがほぼ浮動小数点精度(1%劣化)を実現し、推論遅延を最大30%削減する。
論文 参考訳(メタデータ) (2025-02-01T13:08:02Z) - p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [20.688382669309096]
p-MoDは、モデル性能を維持しながら、トレーニングと推論のコストを大幅に削減する効率的なMLLMアーキテクチャである。
我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。
論文 参考訳(メタデータ) (2024-12-05T18:58:03Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension [45.856469849910496]
視覚言語モデル(VLM)は、様々なオープン語彙タスクにおいて顕著な能力を示してきたが、タスク固有の微調整モデルに遅れたゼロショットのパフォーマンスは遅れている。
大規模言語モデル(LLM)を用いた参照表現タスクのためのVLMの「ブラックボックス」適応法であるLLM-wrapperを提案する。
当社のアプローチでは,内部動作へのアクセスを必要とせずに,クローズドソースモデルの適応を可能にするという,いくつかの利点がある。
論文 参考訳(メタデータ) (2024-09-18T12:32:25Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。