論文の概要: MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference
- arxiv url: http://arxiv.org/abs/2506.15724v1
- Date: Fri, 06 Jun 2025 01:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.798557
- Title: MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference
- Title(参考訳): MadaKV: 効率的なマルチモーダルロングコンテキスト推論のための適応型モダリティ・パーセプションKVキャッシュ推定
- Authors: Kunxi Li, Zhonghua Jiang, Zhouzhou Shen, Zhaode Wang, Chengfei Lv, Shengyu Zhang, Fan Wu, Fei Wu,
- Abstract要約: MadaKVは、長文推論のためのモダリティ適応型キー値キャッシュ消去戦略である。
KVキャッシュメモリのフットプリントとモデル推論復号遅延を大幅に削減する。
代表的MLLMとMileBenchベンチマークの実験は、MadaKVの有効性を実証している。
- 参考スコア(独自算出の注目度): 13.069489189643441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MadaKV, a modality-adaptive key-value (KV) cache eviction strategy designed to enhance the efficiency of multimodal large language models (MLLMs) in long-context inference. In multimodal scenarios, attention heads exhibit varying preferences for different modalities, resulting in significant disparities in modality importance across attention heads. Traditional KV cache eviction methods, which are tailored for unimodal settings, fail to capture modality-specific information, thereby yielding suboptimal performance. MadaKV addresses these challenges through two key components: modality preference adaptation and hierarchical compression compensation. By dynamically sensing modality information within attention heads and adaptively retaining critical tokens, MadaKV achieves substantial reductions in KV cache memory footprint and model inference decoding latency (1.3 to 1.5 times improvement) while maintaining high accuracy across various multimodal long-context tasks. Extensive experiments on representative MLLMs and the MileBench benchmark demonstrate the effectiveness of MadaKV compared to existing KV cache eviction methods.
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル(MLLM)の長文推論における効率向上を目的とした,モダリティ適応型キー値(KV)キャッシュ消去戦略であるMadaKVを紹介する。
マルチモーダルシナリオでは、アテンションヘッドは様々なモダリティの好みを示すため、アテンションヘッド間でモダリティの重要性が著しく異なる。
従来のKVキャッシュ消去法は、非モーダル設定に適したもので、モダリティ固有の情報の取得に失敗し、亜最適性能を得る。
MadaKVは、モダリティ優先適応と階層圧縮補償という2つの重要なコンポーネントを通じてこれらの課題に対処する。
注意ヘッド内のモダリティ情報を動的に検知し、クリティカルトークンを適応的に保持することにより、MadaKVはKVキャッシュメモリフットプリントとモデル推論復号遅延(1.3から1.5倍の改善)を大幅に削減し、様々なマルチモーダル長文タスクの精度を維持しながら達成する。
代表MLLMとMileBenchベンチマークの大規模な実験は、既存のKVキャッシュ消去法と比較してMadaKVの有効性を実証している。
関連論文リスト
- MEDA: Dynamic KV Cache Allocation for Efficient Multimodal Long-Context Inference [15.895020720304656]
MEDAはマルチモーダル長文推論のための動的層ワイドKVキャッシュ割り当て手法である。
MEDAは最大72%のKVキャッシュメモリと2.82倍のデコード速度を実現している。
論文 参考訳(メタデータ) (2025-02-24T19:34:52Z) - Multi-matrix Factorization Attention [59.10039136733939]
MFA(Multi-Matrix Factorization Attention)とMFA-Key-Reuse(MFA-KR)を提案する。
MFAは、アテンションヘッドの数と次元の両方を効率的にスケールアップすることで、モデルキャパシティを向上させる。
MFA-KRはキーキャッシュを値として再利用することでメモリ要求をさらに削減する。
論文 参考訳(メタデータ) (2024-12-26T15:45:45Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - D2O: Dynamic Discriminative Operations for Efficient Long-Context Inference of Large Language Models [28.244034916473804]
大きな言語モデル(LLM)における生成的推論は、キーバリュー(KV)キャッシュのメモリ要求の増加によって妨げられる。
従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを捨て、コンテキスト損失や幻覚などの問題を引き起こす。
そこで我々は,KVキャッシュサイズを動的かつ2段階に最適化するKVキャッシュ圧縮手法であるDynamic Discriminative Operations (D2O)を紹介した。
論文 参考訳(メタデータ) (2024-06-18T20:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。