論文の概要: KVCapsule: Efficient Sequential KV Cache Compression for Vision-Language Models with Asymmetric Redundancy
- arxiv url: http://arxiv.org/abs/2605.16439v1
- Date: Thu, 14 May 2026 23:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.403895
- Title: KVCapsule: Efficient Sequential KV Cache Compression for Vision-Language Models with Asymmetric Redundancy
- Title(参考訳): KVCapsule:非対称冗長な視覚言語モデルのための効率的な逐次KVキャッシュ圧縮
- Authors: Yingbing Huang, Tharun Adithya Srikrishnan, Steven K. Reinhardt, Deming Chen,
- Abstract要約: VLM(Vision-Language Models)は、LLM(Large Language Models)の重要かつ急速に成長する拡張として登場した。
視覚トークンのための新しいKVキャッシュ圧縮フレームワークであるKVCapsuleを提案する。
圧縮率の60%でTPSの最大2倍、KVキャッシュメモリの2.4倍の削減を実現し、精度や応答品質の劣化を無視できることを示した。
- 参考スコア(独自算出の注目度): 8.24188371483346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have emerged as a critical and fast-growing extension of Large Language Models (LLMs) that enable multimodal reasoning through both text and image inputs. Although VLMs enrich the capabilities of language models, they also inherit and amplify key computational bottlenecks: the memory overhead caused by the large key-value (KV) cache during autoregressive decoding. This challenge is particularly severe in VLMs, where images produce longer token sequences and denser feature representations compared to text. Moreover, the spatial and information-rich nature of vision tokens introduces structured attention patterns that make many LLM-oriented KV cache compression techniques ineffective when applied directly to VLMs. In this work, we conduct a detailed empirical analysis of the behavior of vision tokens, highlighting the critical differences from purely text-based models. Based on these insights, we propose KVCapsule, a novel KV cache compression framework for vision tokens. KVCapsule keeps the pretrained VLM backbone frozen, requires no modification to the attention computation modules, and can be integrated into existing VLMs through lightweight compression and reconstruction components. We evaluate KVCapsule on multiple VLMs and benchmark tasks, demonstrating up to 2x improvement in TPS and 2.4x reduction in KV cache memory at a 60% compression ratio, with negligible degradation in accuracy or response quality. Our findings offer practical pathways to scale VLM inference under constrained memory budgets and inspire further research into structure-aware cache compression for multimodal models.
- Abstract(参考訳): VLM(Vision-Language Models)は、テキスト入力と画像入力の両方を通じてマルチモーダル推論を可能にする、LLM(Large Language Models)の重要かつ急速に成長する拡張として登場した。
VLMは言語モデルの能力を豊かにしているが、自動回帰復号時に大きなキー値(KV)キャッシュによって引き起こされるメモリオーバーヘッドという、主要な計算ボトルネックを継承し、増幅する。
この課題はVLMにおいて特に深刻であり、画像はテキストよりも長いトークンシーケンスとより密度の高い特徴表現を生成する。
さらに、視覚トークンの空間的および情報豊富な性質は、VLMに直接適用した場合、多くのLCM指向KVキャッシュ圧縮技術を非効率にする構造化された注意パターンを導入している。
本研究では、視覚トークンの挙動を詳細に分析し、純粋にテキストベースのモデルとの重要な相違点を明らかにする。
これらの知見に基づき、視覚トークンのための新しいKVキャッシュ圧縮フレームワークであるKVCapsuleを提案する。
KVCapsuleは、トレーニング済みのVLMバックボーンを凍結させ、アテンション計算モジュールを変更することなく、軽量な圧縮と再構成コンポーネントを通じて既存のVLMに統合することができる。
我々は、複数のVLMおよびベンチマークタスク上でKVCapsuleを評価し、最大で2倍のTPS改善と2.4倍の圧縮比でKVキャッシュメモリを最大で60%圧縮し、精度や応答品質の劣化を無視できることを示した。
本研究は、制約付きメモリ予算下でのVLM推論のスケールアップと、マルチモーダルモデルのための構造対応キャッシュ圧縮のさらなる研究を促すための実用的な経路を提供する。
関連論文リスト
- Make Your LVLM KV Cache More Lightweight [32.6781862382433]
キーバリュー(KV)キャッシュは、現代のLVLM(Large Vision-Language Models)のデファクトコンポーネントとなっている。
視覚情報埋め込みにおける冗長性を生かしてKVキャッシュサイズを削減する新しい手法であるLightKVを提案する。
我々は、8つの公開ベンチマークデータセットにわたる8つのオープンソースLVLM上でLightKVを評価する。
論文 参考訳(メタデータ) (2026-05-01T17:11:39Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。
本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-31T11:13:18Z) - VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。