論文の概要: Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.20707v1
- Date: Thu, 23 Oct 2025 16:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.331601
- Title: Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models
- Title(参考訳): 多様性との混合重要度:大規模視覚言語モデルにおけるKVキャッシュ圧縮のための共同最適化
- Authors: Xuyang Liu, Xiyan Gui, Yuchao Zhang, Linfeng Zhang,
- Abstract要約: textttMixKVは、視覚言語モデルにおける最適化KVキャッシュ圧縮において重要度と多様性を混合する新しい手法である。
極端な圧縮の下で、textttMixKVは5つのマルチモーダル理解ベンチマークで平均で textbf5.1% のベースラインメソッドを改善している。
- 参考スコア(独自算出の注目度): 14.603288559638614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large vision-language models (LVLMs) demonstrate remarkable capabilities in processing extended multi-modal sequences, yet the resulting key-value (KV) cache expansion creates a critical memory bottleneck that fundamentally limits deployment scalability. While existing KV cache compression methods focus on retaining high-importance KV pairs to minimize storage, they often overlook the modality-specific semantic redundancy patterns that emerge distinctively in multi-modal KV caches. In this work, we first analyze how, beyond simple importance, the KV cache in LVLMs exhibits varying levels of redundancy across attention heads. We show that relying solely on importance can only cover a subset of the full KV cache information distribution, leading to potential loss of semantic coverage. To address this, we propose \texttt{MixKV}, a novel method that mixes importance with diversity for optimized KV cache compression in LVLMs. \texttt{MixKV} adapts to head-wise semantic redundancy, selectively balancing diversity and importance when compressing KV pairs. Extensive experiments demonstrate that \texttt{MixKV} consistently enhances existing methods across multiple LVLMs. Under extreme compression (budget=64), \texttt{MixKV} improves baseline methods by an average of \textbf{5.1\%} across five multi-modal understanding benchmarks and achieves remarkable gains of \textbf{8.0\%} and \textbf{9.0\%} for SnapKV and AdaKV on GUI grounding tasks, all while maintaining comparable inference efficiency. Furthermore, \texttt{MixKV} extends seamlessly to LLMs with comparable performance gains. Our code is available at \href{https://github.com/xuyang-liu16/MixKV}{\textcolor{citeblue}{https://github.com/xuyang-liu16/MixKV}}.
- Abstract(参考訳): 近年の大規模視覚言語モデル(LVLM)は、拡張マルチモーダルシーケンスの処理において顕著な能力を示しているが、結果としてキーバリュー(KV)キャッシュの拡張は、デプロイメントのスケーラビリティを根本的に制限する重要なメモリボトルネックを生み出している。
既存のKVキャッシュ圧縮手法は、ストレージを最小限に抑えるために重要度の高いKVペアを維持することに重点を置いているが、マルチモーダルKVキャッシュで顕著に現れるモダリティ固有のセマンティック冗長パターンを見落としていることが多い。
本研究では,まず,LVLMにおけるKVキャッシュが,注目ヘッド間の冗長性のレベルが異なることを明らかにする。
重要度のみに依存することは、KVキャッシュ情報分布のサブセットのみをカバーすることができ、セマンティックカバレッジが失われる可能性があることを示す。
そこで本研究では,LVLMの最適化KVキャッシュ圧縮において,重要度と多様性を混合した新しい手法である「texttt{MixKV}」を提案する。
\texttt{MixKV} は頭回りの意味的冗長性に対応し、KVペアを圧縮する際の多様性と重要性を選択的にバランスさせる。
大規模な実験により、 \texttt{MixKV} は複数の LVLM にまたがる既存の手法を一貫して拡張することを示した。
極端な圧縮 (budget=64) の下で、 \texttt{MixKV} は5つのマルチモーダル理解ベンチマークの平均である \textbf{5.1\%} によってベースラインメソッドを改善し、同じ推論効率を維持しながら、SnapKV と AdaKV の GUI グラウンドタスクに対する \textbf{8.0\%} と \textbf{9.0\%} の顕著なゲインを達成する。
さらに \texttt{MixKV} は LLM にシームレスに拡張され、同等のパフォーマンスが向上する。
私たちのコードは、 \href{https://github.com/xuyang-liu16/MixKV}{\textcolor{citeblue}{https://github.com/xuyang-liu16/MixKV}}で利用可能です。
関連論文リスト
- KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference [16.53643930310808]
KeepKVは、厳しいメモリ制約下で性能を保ちながら出力摂動を排除するために設計された、新しい適応KVキャッシュマージ手法である。
KeepKVはメモリ使用量を大幅に削減し、推論スループットを2倍以上に向上し、10%のKVキャッシュ予算でも優れた生成品質を維持している。
論文 参考訳(メタデータ) (2025-04-14T06:58:00Z) - KVShare: An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse [17.301289617498448]
マルチテナントシナリオ下で要求間でKVキャッシュを共有するKVキャッシュ管理モジュールを提案する。
KVShareはTTFTを最大9.39倍に削減し、完全なKV再計算に比べてスループットを1.2倍に向上させる。
KVShareはSOTA法に比べて精度が20.38%向上している。
論文 参考訳(メタデータ) (2025-03-17T16:43:35Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - DiffKV: Differentiated Memory Management for Large Language Models with Parallel KV Compaction [33.936381781692994]
DiffKVは効率的なKVキャッシュ圧縮のための新しいフレームワークである。
KVキャッシュにおける3つのレベルの分化を利用する。
KVキャッシュを2.7Times$から5.7times$に圧縮できる。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。