Fugu-MT 論文翻訳(概要): MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference

論文の概要: MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference

arxiv url: http://arxiv.org/abs/2506.15724v1
Date: Fri, 06 Jun 2025 01:51:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-29 09:28:14.798557
Title: MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference
Title（参考訳）: MadaKV: 効率的なマルチモーダルロングコンテキスト推論のための適応型モダリティ・パーセプションKVキャッシュ推定
Authors: Kunxi Li, Zhonghua Jiang, Zhouzhou Shen, Zhaode Wang, Chengfei Lv, Shengyu Zhang, Fan Wu, Fei Wu,
Abstract要約: MadaKVは、長文推論のためのモダリティ適応型キー値キャッシュ消去戦略である。 KVキャッシュメモリのフットプリントとモデル推論復号遅延を大幅に削減する。代表的MLLMとMileBenchベンチマークの実験は、MadaKVの有効性を実証している。
参考スコア（独自算出の注目度）: 13.069489189643441
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces MadaKV, a modality-adaptive key-value (KV) cache eviction strategy designed to enhance the efficiency of multimodal large language models (MLLMs) in long-context inference. In multimodal scenarios, attention heads exhibit varying preferences for different modalities, resulting in significant disparities in modality importance across attention heads. Traditional KV cache eviction methods, which are tailored for unimodal settings, fail to capture modality-specific information, thereby yielding suboptimal performance. MadaKV addresses these challenges through two key components: modality preference adaptation and hierarchical compression compensation. By dynamically sensing modality information within attention heads and adaptively retaining critical tokens, MadaKV achieves substantial reductions in KV cache memory footprint and model inference decoding latency (1.3 to 1.5 times improvement) while maintaining high accuracy across various multimodal long-context tasks. Extensive experiments on representative MLLMs and the MileBench benchmark demonstrate the effectiveness of MadaKV compared to existing KV cache eviction methods.
Abstract（参考訳）: 本稿では,マルチモーダル大規模言語モデル(MLLM)の長文推論における効率向上を目的とした,モダリティ適応型キー値(KV)キャッシュ消去戦略であるMadaKVを紹介する。マルチモーダルシナリオでは、アテンションヘッドは様々なモダリティの好みを示すため、アテンションヘッド間でモダリティの重要性が著しく異なる。従来のKVキャッシュ消去法は、非モーダル設定に適したもので、モダリティ固有の情報の取得に失敗し、亜最適性能を得る。 MadaKVは、モダリティ優先適応と階層圧縮補償という2つの重要なコンポーネントを通じてこれらの課題に対処する。注意ヘッド内のモダリティ情報を動的に検知し、クリティカルトークンを適応的に保持することにより、MadaKVはKVキャッシュメモリフットプリントとモデル推論復号遅延(1.3から1.5倍の改善)を大幅に削減し、様々なマルチモーダル長文タスクの精度を維持しながら達成する。代表MLLMとMileBenchベンチマークの大規模な実験は、既存のKVキャッシュ消去法と比較してMadaKVの有効性を実証している。

関連論文リスト

SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。本研究では,SmallKVのスループットがベースライン法よりも1.75～2.56倍高いことを示す。
論文参考訳（メタデータ） (2025-08-03T09:15:36Z)
IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。 IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文参考訳（メタデータ） (2025-07-16T06:39:11Z)
TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文参考訳（メタデータ） (2025-06-05T05:23:38Z)
MEDA: Dynamic KV Cache Allocation for Efficient Multimodal Long-Context Inference [15.895020720304656]
MEDAはマルチモーダル長文推論のための動的層ワイドKVキャッシュ割り当て手法である。 MEDAは最大72%のKVキャッシュメモリと2.82倍のデコード速度を実現している。
論文参考訳（メタデータ） (2025-02-24T19:34:52Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
Multi-matrix Factorization Attention [59.10039136733939]
MFA(Multi-Matrix Factorization Attention)とMFA-Key-Reuse(MFA-KR)を提案する。 MFAは、アテンションヘッドの数と次元の両方を効率的にスケールアップすることで、モデルキャパシティを向上させる。 MFA-KRはキーキャッシュを値として再利用することでメモリ要求をさらに削減する。
論文参考訳（メタデータ） (2024-12-26T15:45:45Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference [32.20654044142376]
LOOK-Mは、マルチモーダルKVキャッシュサイズを効率的に削減する、先駆的で微調整のないアプローチである。最大1.5倍高速なデコードを実現し、また、様々な長いコンテキストマルチモーダルタスクのパフォーマンスを維持または強化する。
論文参考訳（メタデータ） (2024-06-26T07:44:24Z)
D2O: Dynamic Discriminative Operations for Efficient Long-Context Inference of Large Language Models [28.244034916473804]
大きな言語モデル(LLM)における生成的推論は、キーバリュー(KV)キャッシュのメモリ要求の増加によって妨げられる。従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを捨て、コンテキスト損失や幻覚などの問題を引き起こす。そこで我々は,KVキャッシュサイズを動的かつ2段階に最適化するKVキャッシュ圧縮手法であるDynamic Discriminative Operations (D2O)を紹介した。
論文参考訳（メタデータ） (2024-06-18T20:01:51Z)
QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。 KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文参考訳（メタデータ） (2024-03-07T16:42:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。