論文の概要: Make Your LVLM KV Cache More Lightweight
- arxiv url: http://arxiv.org/abs/2605.00789v1
- Date: Fri, 01 May 2026 17:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:29.024884
- Title: Make Your LVLM KV Cache More Lightweight
- Title(参考訳): LVLM KVキャッシュの軽量化
- Authors: Xihao Chen, Yangyang Guo, Roger Zimmermann,
- Abstract要約: キーバリュー(KV)キャッシュは、現代のLVLM(Large Vision-Language Models)のデファクトコンポーネントとなっている。
視覚情報埋め込みにおける冗長性を生かしてKVキャッシュサイズを削減する新しい手法であるLightKVを提案する。
我々は、8つの公開ベンチマークデータセットにわたる8つのオープンソースLVLM上でLightKVを評価する。
- 参考スコア(独自算出の注目度): 32.6781862382433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Key-Value (KV) cache has become a de facto component of modern Large Vision-Language Models (LVLMs) for inference. While it enhances decoding efficiency in Large Language Models (LLMs), its direct adoption in LVLMs introduces substantial GPU memory overhead due to the large number of vision tokens processed during the prefill stage. To tackle this problem, we propose LightKV, a novel approach that reduces KV cache size by exploiting the redundancy among vision-token embeddings. Guided by text prompts, LightKV employs cross-modality message passing to aggregate informative messages across vision tokens and progressively compress them during prefill. This prompt-aware guidance distinguishes our method from prior vision-only compression strategies. We evaluate LightKV on eight open-source LVLMs across eight public benchmark datasets, e.g., MME and SeedBench. Experimental results demonstrate that with only 55% of the original vision tokens, LightKV (a) halves the vision-token KV cache size, (b) reduces computation by up to 40%, and (c) preserves general-purpose performance while significantly outperforming existing baselines.
- Abstract(参考訳): キーバリュー(KV)キャッシュは、推論のための現代のLVLM(Large Vision-Language Models)のデファクトコンポーネントとなっている。
LLM(Large Language Models)のデコード効率は向上するが、LVLMへの直接的な採用は、プリフィル段階で処理される多数の視覚トークンのために、GPUメモリのオーバーヘッドを大幅に増加させる。
この問題に対処するために、視覚障害者の埋め込みにおける冗長性を利用して、KVキャッシュサイズを削減する新しいアプローチであるLightKVを提案する。
テキストプロンプトによってガイドされたLightKVは、モダリティ横断メッセージパッシングを使用して、視覚トークンにまたがる情報メッセージを集約し、プリフィル中に徐々に圧縮する。
このプロンプト・アウェア・ガイダンスは、従来の視覚のみの圧縮戦略との違いを識別する。
我々は、8つの公開ベンチマークデータセット(例えば、MME、SeedBench)で8つのオープンソースLVLM上でLightKVを評価した。
実験の結果、元の視覚トークンの55%しか持たないLightKVが実証された。
(a)視覚障害者のKVキャッシュサイズを半減する。
(b)計算を最大40%削減し、
(c) 既存のベースラインを著しく上回りながら汎用性能を保っている。
関連論文リスト
- Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models [34.12135666939555]
MLLM(Multimodal Large Language Models)は、複数の視覚トークンを全てのレイヤで処理することで、計算コストを大幅に削減する。
LLMの注意機構のみを用いて、視覚トークンを段階的に削減する、シンプルで広く適用可能な方法である、注意駆動型自己圧縮(ADSC)を導入する。
ADSCはFLOPを53.7%、KVキャッシュメモリを56.7%削減し、オリジナルモデルの98.2%を保存した。
論文 参考訳(メタデータ) (2026-02-13T04:49:27Z) - Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models [14.603288559638614]
textttMixKVは、視覚言語モデルにおける最適化KVキャッシュ圧縮において重要度と多様性を混合する新しい手法である。
極端な圧縮の下で、textttMixKVは5つのマルチモーダル理解ベンチマークで平均で textbf5.1% のベースラインメソッドを改善している。
論文 参考訳(メタデータ) (2025-10-23T16:17:47Z) - AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。
本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-31T11:13:18Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。