論文の概要: MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference
- arxiv url: http://arxiv.org/abs/2506.15724v1
- Date: Fri, 06 Jun 2025 01:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.798557
- Title: MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference
- Title(参考訳): MadaKV: 効率的なマルチモーダルロングコンテキスト推論のための適応型モダリティ・パーセプションKVキャッシュ推定
- Authors: Kunxi Li, Zhonghua Jiang, Zhouzhou Shen, Zhaode Wang, Chengfei Lv, Shengyu Zhang, Fan Wu, Fei Wu,
- Abstract要約: MadaKVは、長文推論のためのモダリティ適応型キー値キャッシュ消去戦略である。
KVキャッシュメモリのフットプリントとモデル推論復号遅延を大幅に削減する。
代表的MLLMとMileBenchベンチマークの実験は、MadaKVの有効性を実証している。
- 参考スコア(独自算出の注目度): 13.069489189643441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MadaKV, a modality-adaptive key-value (KV) cache eviction strategy designed to enhance the efficiency of multimodal large language models (MLLMs) in long-context inference. In multimodal scenarios, attention heads exhibit varying preferences for different modalities, resulting in significant disparities in modality importance across attention heads. Traditional KV cache eviction methods, which are tailored for unimodal settings, fail to capture modality-specific information, thereby yielding suboptimal performance. MadaKV addresses these challenges through two key components: modality preference adaptation and hierarchical compression compensation. By dynamically sensing modality information within attention heads and adaptively retaining critical tokens, MadaKV achieves substantial reductions in KV cache memory footprint and model inference decoding latency (1.3 to 1.5 times improvement) while maintaining high accuracy across various multimodal long-context tasks. Extensive experiments on representative MLLMs and the MileBench benchmark demonstrate the effectiveness of MadaKV compared to existing KV cache eviction methods.
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル(MLLM)の長文推論における効率向上を目的とした,モダリティ適応型キー値(KV)キャッシュ消去戦略であるMadaKVを紹介する。
マルチモーダルシナリオでは、アテンションヘッドは様々なモダリティの好みを示すため、アテンションヘッド間でモダリティの重要性が著しく異なる。
従来のKVキャッシュ消去法は、非モーダル設定に適したもので、モダリティ固有の情報の取得に失敗し、亜最適性能を得る。
MadaKVは、モダリティ優先適応と階層圧縮補償という2つの重要なコンポーネントを通じてこれらの課題に対処する。
注意ヘッド内のモダリティ情報を動的に検知し、クリティカルトークンを適応的に保持することにより、MadaKVはKVキャッシュメモリフットプリントとモデル推論復号遅延(1.3から1.5倍の改善)を大幅に削減し、様々なマルチモーダル長文タスクの精度を維持しながら達成する。
代表MLLMとMileBenchベンチマークの大規模な実験は、既存のKVキャッシュ消去法と比較してMadaKVの有効性を実証している。
関連論文リスト
- Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - MHA2MLA-VLM: Enabling DeepSeek's Economical Multi-Head Latent Attention across Vision-Language Models [37.41464628858585]
MHA2MLA-VLMは、市販の視覚言語モデルをMLA(Multi-Head Latent Attention)に変換するためのフレームワークである。
MHA2MLA-VLMは、最小教師付きデータで元のモデル性能を復元し、KVキャッシュのフットプリントを大幅に削減し、KV量子化とシームレスに統合することを示す。
論文 参考訳(メタデータ) (2026-01-16T17:45:34Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - FlowMM: Cross-Modal Information Flow Guided KV Cache Merging for Efficient Multimodal Context Inference [14.674840098804184]
FlowMMは、クロスモーダル情報フロー誘導マルチモーダルKVキャッシュマージのための適応フレームワークである。
FlowMMは、KVキャッシュメモリを80%から95%削減し、遅延を1.3-1.8x削減し、競合するタスク性能を維持しながら、遅延を1.3-1.8x削減することを示した。
論文 参考訳(メタデータ) (2025-10-29T13:20:16Z) - SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。
本研究では,SmallKVのスループットがベースライン法よりも1.75~2.56倍高いことを示す。
論文 参考訳(メタデータ) (2025-08-03T09:15:36Z) - IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。
IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文 参考訳(メタデータ) (2025-07-16T06:39:11Z) - TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。
提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。
本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文 参考訳(メタデータ) (2025-06-05T05:23:38Z) - MEDA: Dynamic KV Cache Allocation for Efficient Multimodal Long-Context Inference [15.895020720304656]
MEDAはマルチモーダル長文推論のための動的層ワイドKVキャッシュ割り当て手法である。
MEDAは最大72%のKVキャッシュメモリと2.82倍のデコード速度を実現している。
論文 参考訳(メタデータ) (2025-02-24T19:34:52Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - Multi-matrix Factorization Attention [59.10039136733939]
MFA(Multi-Matrix Factorization Attention)とMFA-Key-Reuse(MFA-KR)を提案する。
MFAは、アテンションヘッドの数と次元の両方を効率的にスケールアップすることで、モデルキャパシティを向上させる。
MFA-KRはキーキャッシュを値として再利用することでメモリ要求をさらに削減する。
論文 参考訳(メタデータ) (2024-12-26T15:45:45Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference [32.20654044142376]
LOOK-Mは、マルチモーダルKVキャッシュサイズを効率的に削減する、先駆的で微調整のないアプローチである。
最大1.5倍高速なデコードを実現し、また、様々な長いコンテキストマルチモーダルタスクのパフォーマンスを維持または強化する。
論文 参考訳(メタデータ) (2024-06-26T07:44:24Z) - D2O: Dynamic Discriminative Operations for Efficient Long-Context Inference of Large Language Models [28.244034916473804]
大きな言語モデル(LLM)における生成的推論は、キーバリュー(KV)キャッシュのメモリ要求の増加によって妨げられる。
従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを捨て、コンテキスト損失や幻覚などの問題を引き起こす。
そこで我々は,KVキャッシュサイズを動的かつ2段階に最適化するKVキャッシュ圧縮手法であるDynamic Discriminative Operations (D2O)を紹介した。
論文 参考訳(メタデータ) (2024-06-18T20:01:51Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。