論文の概要: Towards Joint Quantization and Token Pruning of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.17320v1
- Date: Sun, 19 Apr 2026 08:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.46275
- Title: Towards Joint Quantization and Token Pruning of Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルの連成量子化とトーケンプルーニングに向けて
- Authors: Xinqing Li, Xin He, Xindong Zhang, Ming-Ming Cheng, Lei Zhang, Yun Liu,
- Abstract要約: トークンプルーニングと低ビット量子化は、推論コストの削減を補完する。
我々は、低ビット推論と決定論的視覚トーケンプルーニングを統一する協調量子化&プルーニングフレームワークを提案する。
標準VLMベンチマークの実験では、同じ低ビット状態下でのステージワイドベースラインよりもロバスト性が改善された。
- 参考スコア(独自算出の注目度): 53.978753457744055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Vision-Language Models (VLMs) under aggressive low-bit inference remains challenging because inference cost is dominated by the long visual-token prefix during prefill and the growing KV cache during autoregressive decoding. Token pruning and low-bit quantization are complementary for reducing these costs, yet naive stage-wise combinations are often brittle due to a mismatch between quantization calibration and pruning execution. We present a collaborative quantization-and-pruning framework that unifies low-bit inference and deterministic visual-token pruning in a single deployable pipeline. The framework introduces the \textbf{Q}uantization \textbf{U}nified \textbf{O}ffline \textbf{T}oken \textbf{A}llocator (\textbf{QUOTA}), which converts low-bit calibration signals into a layer-wise token allocation schedule and materializes it as a pruning recipe. Token importance is evaluated under deployed W4A4 operators with a quantized KV cache by combining activation magnitude, attention cues, and an explicit low-bit risk signal, enabling consistent budgeted top-$k$ selection. Experiments on standard VLM benchmarks show improved robustness over stage-wise baselines under the same low-bit regime, achieving 95.65\% average retention while retaining only 30\% of visual tokens, compared with about 94.3\% retention for representative stage-wise combinations. The code will be released.
- Abstract(参考訳): 高速な低ビット推論下でのビジョン・ランゲージ・モデル(VLM)の展開は、プリフィル中の長い視覚的なプレフィックスと自己回帰復号時のKVキャッシュが推論コストを支配しているため、依然として困難である。
トーケンプルーニングと低ビット量子化はこれらのコストを削減するために相補的であるが、量子化キャリブレーションとプルーニングの実行のミスマッチのため、単純で段階的な組み合わせは不安定であることが多い。
本稿では、低ビットの推論と決定論的視覚的プルーニングを単一のパイプラインで統一する、協調的な量子化&プルーニングフレームワークを提案する。
このフレームワークは、低ビットのキャリブレーション信号を層単位でのトークン割り当てスケジュールに変換して、プルーニングレシピとして実現する、 \textbf{Q}uantization \textbf{U}nified \textbf{O}ffline \textbf{T}oken \textbf{A}llocator (\textbf{QUOTA})を導入している。
アクティベーションマグニチュード、アテンションキュー、明示的な低ビットリスク信号を組み合わせることで、量子化されたKVキャッシュを備えたW4A4演算子の下でのトークン重要度を評価し、一貫した予算付きトップ$k$選択を可能にする。
標準的なVLMベンチマークの実験では、同じ低ビット状態下でのステージワイドベースラインよりもロバスト性が向上し、平均保持率は95.65 %、視覚トークンは30 %であり、代表的なステージワイドの組み合わせでは94.3 %である。
コードはリリースされます。
関連論文リスト
- QAPruner: Quantization-Aware Vision Token Pruning for Multimodal Large Language Models [18.353831760548267]
MLLM(Multimodal Large Language Models)は、強力な推論能力を示しているが、その高い計算とメモリコストは、リソース制約された設定でのデプロイメントを妨げる。
ポストトレーニング量子化(PTQ)とビジョントークンプルーニングは標準的な圧縮技術であるが、通常は独立した最適化として扱われる。
本稿では,これらの2つの手法が強く結合していることを示し,PTQ最適化MLLMに対して意味に基づくトークンプルーニングを適用することにより,数値安定性に重要なアクティベーションアウトレーヤを廃止し,低ビット状態における量子化誤差を悪化させることができることを示す。
量子化対応型視覚トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-03T07:32:07Z) - LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs [61.06744611795341]
医用視覚言語モデル(VLM)は医用画像の強力なゼロショット認識器である。
本研究では,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ(texttttextbfLATA,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ)を提案する。
texttttextbfLATAは交換性を損なうことなくゼロショット予測をシャープにする。
論文 参考訳(メタデータ) (2026-02-19T16:45:38Z) - PatternKV: Flattening KV Representation Expands Quantization Headroom [37.83913102876393]
自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
論文 参考訳(メタデータ) (2025-10-05T12:09:14Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP)
軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。
ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文 参考訳(メタデータ) (2025-04-06T15:15:07Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - Cross-Self KV Cache Pruning for Efficient Vision-Language Inference [19.062950348441426]
KVキャッシュプルーニングは、長文自動回帰生成におけるメモリと計算コストを削減するための有望な手法として登場した。
我々は、注意スコアをモダリティ内注意(同じモダリティ)とモダリティ間注意(全体モダリティ)に分解することを提案する。
最終的なトレーニング不要手法である textbfCross-textbfSelf textbfPruning (CSP) は、完全なKVキャッシュを持つモデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-05T22:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。