論文の概要: HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2604.05887v1
- Date: Tue, 07 Apr 2026 13:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.865292
- Title: HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference
- Title(参考訳): HybridKV: 効率的なマルチモーダル大言語モデル推論のためのハイブリッドKVキャッシュ圧縮
- Authors: Bowen Zeng, Feiyang Ren, Jun Zhang, Xiaoling Gu, Ke Chen, Lidan Shou, Huan Li,
- Abstract要約: MLLM(Multimodal Large Language Models)は、テキスト、画像、ビデオに対する高度な統一推論である。
各ビジュアル入力は数千のトークンに拡張され、キャッシュはコンテキスト長と線形にスケールする。
一般的な解決策は、固定された予算の下で異なる粒度でキャッシュを圧縮することである。
相補的戦略を3段階に統合したハイブリッドKVキャッシュ圧縮フレームワークであるHybridKVを提案する。
- 参考スコア(独自算出の注目度): 23.016627145448467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have advanced unified reasoning over text, images, and videos, but their inference is hindered by the rapid growth of key-value (KV) caches. Each visual input expands into thousands of tokens, causing caches to scale linearly with context length and remain resident in GPU memory throughout decoding, which leads to prohibitive memory overhead and latency even on high-end GPUs. A common solution is to compress caches under a fixed allocated budget at different granularities: token-level uniformly discards less important tokens, layer-level varies retention across layers, and head-level redistributes budgets across heads. Yet these approaches stop at allocation and overlook the heterogeneous behaviors of attention heads that require distinct compression strategies. We propose HybridKV, a hybrid KV cache compression framework that integrates complementary strategies in three stages: heads are first classified into static or dynamic types using text-centric attention; then a top-down budget allocation scheme hierarchically assigns KV budgets; finally, static heads are compressed by text-prior pruning and dynamic heads by chunk-wise retrieval. Experiments on 11 multimodal benchmarks with Qwen2.5-VL-7B show that HybridKV reduces KV cache memory by up to $7.9\times$ and achieves $1.52\times$ faster decoding, with almost no performance drop or even higher relative to the full-cache MLLM.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、テキスト、画像、ビデオに対して高度な統一推論を行うが、その推論はキー値(KV)キャッシュの急速な増加によって妨げられる。
各ビジュアル入力は数千のトークンに拡張され、キャッシュはコンテキスト長と線形にスケールし、デコードを通じてGPUメモリに留まり、ハイエンドGPUでもメモリオーバーヘッドとレイテンシが禁止される。
一般的な解決策は、固定された予算の下で、異なる粒度でキャッシュを圧縮することである。トークンレベルは、重要でないトークンを均一に破棄し、レイヤレベルは層間で保持が変化する。
しかし、これらのアプローチは、異なる圧縮戦略を必要とする注目ヘッドの不均一な振る舞いを割り当て、見落としてしまう。
ヘッドをテキスト中心の注意で静的または動的タイプに分類し、トップダウン予算配分方式でKV予算を階層的に割り当て、最後に、静的ヘッドをテキストプライアプルーニングと動的ヘッドでチャンクワイズ検索により圧縮する。
Qwen2.5-VL-7Bによる11のマルチモーダルベンチマークの実験では、HybridKVはKVキャッシュメモリを最大7.9\times$に削減し、高速デコードで1.52\times$を達成する。
関連論文リスト
- PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - LAVa: Layer-wise KV Cache Eviction with Dynamic Budget Allocation [24.45300622331682]
KVキャッシュはLLM推論を長いコンテキストで高速化するために一般的に使用される。
しかし、既存の圧縮方法はほとんどなく、動的予算配分が欠如している。
本稿では,Transformer残ストリームにおける情報損失を最小限に抑えることにより,キャッシュ圧縮のための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-11T16:48:24Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - ZigZagkv: Dynamic KV Cache Compression for Long-context Modeling based on Layer Uncertainty [35.947737679664016]
推論長が増加するにつれて、KVキャッシュの増加はメモリ外問題を引き起こす可能性がある。
本稿では,各層に予算規模を割り当てるために,層不確実性を利用した簡易かつ効果的なKVキャッシュ圧縮手法を提案する。
実験の結果,提案手法はフルKV推定と比較して,KVキャッシュのメモリ使用量を$sim$20%に削減できることがわかった。
論文 参考訳(メタデータ) (2024-12-12T07:52:56Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - DiffKV: Differentiated Memory Management for Large Language Models with Parallel KV Compaction [33.936381781692994]
DiffKVは効率的なKVキャッシュ圧縮のための新しいフレームワークである。
KVキャッシュにおける3つのレベルの分化を利用する。
KVキャッシュを2.7Times$から5.7times$に圧縮できる。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。