論文の概要: TGV-KV: Text-Grounded KV Eviction for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.03075v1
- Date: Tue, 02 Jun 2026 03:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.716872
- Title: TGV-KV: Text-Grounded KV Eviction for Vision-Language Models
- Title(参考訳): TGV-KV:視覚言語モデルのためのテキストGrounded KV Eviction
- Authors: Jizhihui Liu, Ruizi Han, Miao Zhang, Rui Shao, Xuebo Liu, Weili Guan, Yaowei Wang,
- Abstract要約: VLM(Vision-Language Models)は自動回帰生成パラダイムを継承し、以前のトークンのキーと値(KV)をキャッシュして推論を高速化する。
VLM(TGV-KV)のためのテキスト・グラウンドKV推定法を提案する。
TGV-KVのスループットは52.6%向上し、極端な維持予算は5%となった。
- 参考スコア(独自算出の注目度): 58.34044231794507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) inherit the auto-regressive generation paradigm and cache the keys and values (KV) of all previous tokens to accelerate inference, resulting in memory consumption that scales linearly with context length. This issue is particularly pronounced in VLMs due to substantial redundancy in the visual modality. Although KV cache eviction approaches can effectively reduce inference memory, they often incur significant performance degradation in VLMs, as most are designed for language models and overlook the inherent gap between text and vision. By systematically analyzing the modality gap in VLMs in this work, we argue that the importance of visual information should be grounded in textual guidance and accordingly propose a Text-Grounded KV Eviction method for VLMs (TGV-KV). TGV-KV comprises three submodules: (1) Text-Vision Budgeting (TVB) assigns budget to each layer based on the mutual information interaction. (2) Text-Weighted Ranking (TWR) assesses the priority of text and ranks vision importance based on weighted text-image attention. (3) Text-Prioritised Retention (TPR) policy strategically preserves text KV to avoid acute information loss. We evaluate TGV-KV across five models with different sizes and architectures, showing that TGV-KV preserves 99.2% full-KV accuracy on the VizWiz-VQA task with LLaVA-NeXT and boosts end-to-end throughput by 52.6% with an extreme retention budget of 5%. Code is available at https://github.com/Danielement321/TGV-KV.
- Abstract(参考訳): VLM(Vision-Language Models)は、自動回帰生成パラダイムを継承し、すべての前のトークンのキーと値(KV)をキャッシュし、推論を高速化する。
この問題は視覚的モダリティにかなりの冗長性があるため、VLMでは特に顕著である。
KVキャッシュの消去アプローチは推論メモリを効果的に削減できるが、VLMは言語モデルのために設計され、テキストとビジョンの間に固有のギャップを見落としているため、しばしば大きな性能劣化を引き起こす。
本研究では,VLMのモダリティギャップを系統的に解析することにより,視覚情報の重要度をテキストガイダンスで評価し,VLMのテキスト・グラウンドKV推定法を提案する。
TGV-KVは3つのサブモジュールから構成される: 1) テキスト・ビジョン・バッジ(TVB)は、相互情報相互作用に基づいて各レイヤに予算を割り当てる。
2) テキスト重み付け(TWR)は,重み付けされたテキスト・イメージ・アテンションに基づいて,テキストの優先度と視覚的重要度を評価する。
(3) テキスト・プライオリティード・リテンション(TPR)政策は, テキストKVを戦略的に保存し, 急性情報損失を回避する。
TGV-KVは,LLaVA-NeXTを用いたVizWiz-VQAタスクにおいて,99.2%の完全KV精度を保ち,最大保持予算5%でエンドツーエンドスループットを52.6%向上することを示す。
コードはhttps://github.com/Danielement321/TGV-KVで入手できる。
関連論文リスト
- KVCapsule: Efficient Sequential KV Cache Compression for Vision-Language Models with Asymmetric Redundancy [8.24188371483346]
VLM(Vision-Language Models)は、LLM(Large Language Models)の重要かつ急速に成長する拡張として登場した。
視覚トークンのための新しいKVキャッシュ圧縮フレームワークであるKVCapsuleを提案する。
圧縮率の60%でTPSの最大2倍、KVキャッシュメモリの2.4倍の削減を実現し、精度や応答品質の劣化を無視できることを示した。
論文 参考訳(メタデータ) (2026-05-14T23:01:58Z) - LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction [46.60403085398673]
本稿では,KV圧縮をエンドツーエンドの微分可能最適化問題として定式化するLKV(Learned KV Eviction)を提案する。
LKVは、LongBenchベンチマークとRULERベンチマークの両方で、高い圧縮速度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-04-22T06:35:23Z) - STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression? [43.88970987769102]
視覚テキスト圧縮(VTC)は、長いテキストを密度の高い2次元の視覚表現に変換する。
この高情報密度が視覚言語モデル(VLM)のコア長文能力に与える影響は未検討のままである。
この研究は、VTCの深い理解を提供し、より効率的でスケーラブルなVLMを設計するための基盤となる。
論文 参考訳(メタデータ) (2025-12-17T17:58:35Z) - Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - Graph-KV: Breaking Sequence via Injecting Structural Biases into Large Language Models [63.64507678113921]
構造的帰納バイアスを通して相互作用を管理するグラフ-KVを導入する。
このフレームワークでは、「ターゲット」セグメントは指定された「ソース」セグメントのKV-cacheのみに選択的に参加する。
我々は,(1)直接推論,マルチホップ推論,長期文書理解にまたがる7つのRAGベンチマーク,(2)引用エゴグラフとして構造化された全文科学論文を用いた新しい学術論文QAタスクArxiv-QA,(3)引用ネットワーク内の論文トピック分類の3つのシナリオでグラフ-KVを評価する。
論文 参考訳(メタデータ) (2025-06-09T00:30:08Z) - AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models [4.794762861776729]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な性能を示す。
長時間のマルチモーダル入力はキーバリューキャッシュを過大にし、メモリ消費とI/Oボトルネックを引き起こす。
LLM(Large Language Models)の以前のKV量子化手法はこれらの問題を緩和するが、マルチモーダルトークンの注目度差を無視する。
AKVQ-VLはピークメモリ使用量を2.13倍に削減し、最大3.25倍のバッチサイズと2.46倍のスループットをサポートする。
論文 参考訳(メタデータ) (2025-01-25T02:01:56Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。