論文の概要: Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2602.02197v1
- Date: Mon, 02 Feb 2026 15:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.238954
- Title: Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models
- Title(参考訳): マルチモーダル言語モデルにおけるKVキャッシュ管理のための階層的適応的推定法
- Authors: Xindian Ma, Yidi Lu, Peng Zhang, Jing Zhang,
- Abstract要約: 既存のKVキャッシュ消去戦略は、視覚トークンとテキストトークンの間の不均一な注意分布に対処できない。
MLLMにおけるテキスト-視覚トークンの相互作用を最適化するKVキャッシュ消去フレームワークである階層適応消去(HAE)を提案する。
HAEは層間のKVキャッシュ使用を最小化し、インデックスブロードキャストによる計算オーバーヘッドを低減し、理論的には優れた情報完全性と低いエラー境界を保証する。
- 参考スコア(独自算出の注目度): 8.944739362562494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of visual information into Large Language Models (LLMs) has enabled Multimodal LLMs (MLLMs), but the quadratic memory and computational costs of Transformer architectures remain a bottleneck. Existing KV cache eviction strategies fail to address the heterogeneous attention distributions between visual and text tokens, leading to suboptimal efficiency or degraded performance. In this paper, we propose Hierarchical Adaptive Eviction (HAE), a KV cache eviction framework that optimizes text-visual token interaction in MLLMs by implementing Dual-Attention Pruning during pre-filling (leveraging visual token sparsity and attention variance) and a Dynamic Decoding Eviction Strategy (inspired by OS Recycle Bins) during decoding. HAE minimizes KV cache usage across layers, reduces computational overhead via index broadcasting, and theoretically ensures superior information integrity and lower error bounds compared to greedy strategies, enhancing efficiency in both comprehension and generation tasks. Empirically, HAE reduces KV-Cache memory by 41\% with minimal accuracy loss (0.3\% drop) in image understanding tasks and accelerates story generation inference by 1.5x while maintaining output quality on Phi3.5-Vision-Instruct model.
- Abstract(参考訳): LLM(Large Language Models)への視覚情報の統合により、MLLM(Multimodal LLM)が可能になったが、Transformerアーキテクチャの二次記憶と計算コストはボトルネックのままである。
既存のKVキャッシュ消去戦略は、視覚トークンとテキストトークンの間の不均一な注意分布に対処できず、最適以下の効率や性能低下につながる。
本稿では,MLLMにおけるテキスト-視覚的トークン相互作用を最適化するKVキャッシュ消去フレームワークである階層適応消去(HAE)と,デコード時の動的復号化戦略(OS Recycle Binsにヒントを得た)を提案する。
HAEは層間のKVキャッシュ使用を最小化し、インデックスブロードキャストによる計算オーバーヘッドを低減し、理論上は情報整合性とエラー境界の低減を実現し、理解タスクと生成タスクの効率を向上する。
実証的に、HAEは画像理解タスクにおいて、KVキャッシュメモリを最小で41\%削減し(0.3\%ドロップ)、Phi3.5-Vision-Instructモデルの出力品質を維持しながら、ストーリー生成推論を1.5倍高速化する。
関連論文リスト
- Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [15.76582272387931]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - D2O: Dynamic Discriminative Operations for Efficient Long-Context Inference of Large Language Models [28.244034916473804]
大きな言語モデル(LLM)における生成的推論は、キーバリュー(KV)キャッシュのメモリ要求の増加によって妨げられる。
従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを捨て、コンテキスト損失や幻覚などの問題を引き起こす。
そこで我々は,KVキャッシュサイズを動的かつ2段階に最適化するKVキャッシュ圧縮手法であるDynamic Discriminative Operations (D2O)を紹介した。
論文 参考訳(メタデータ) (2024-06-18T20:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。