論文の概要: FlowMM: Cross-Modal Information Flow Guided KV Cache Merging for Efficient Multimodal Context Inference
- arxiv url: http://arxiv.org/abs/2511.05534v2
- Date: Thu, 13 Nov 2025 14:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.028266
- Title: FlowMM: Cross-Modal Information Flow Guided KV Cache Merging for Efficient Multimodal Context Inference
- Title(参考訳): FlowMM: 効率的なマルチモーダルコンテキスト推論のためのクロスモーダル情報フローガイドKVキャッシュマージ
- Authors: Kunxi Li, Yufan Xiong, Zhonghua Jiang, Yiyun Zhou, Zhaode Wang, Chengfei Lv, Shengyu Zhang,
- Abstract要約: FlowMMは、クロスモーダル情報フロー誘導マルチモーダルKVキャッシュマージのための適応フレームワークである。
FlowMMは、KVキャッシュメモリを80%から95%削減し、遅延を1.3-1.8x削減し、競合するタスク性能を維持しながら、遅延を1.3-1.8x削減することを示した。
- 参考スコア(独自算出の注目度): 14.674840098804184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional KV cache eviction strategies, which discard less critical KV-pairs based on attention scores, often degrade generation quality, causing context loss or hallucinations. Recent efforts shift toward KV merging, merging eviction tokens with retention tokens based on similarity. However, in multimodal scenarios, distributional biases across modality tokens and attentional biases in cross-modal interactions limit its effectiveness. This work introduces FlowMM, an adaptive framework for cross-modal information flow-guided multimodal KV cache merging. FlowMM leverages cross-modal information flow to dynamically apply layer-specific merging strategies, capturing modality-specific patterns while preserving contextual integrity. Furthermore, we introduce a sensitivity-adaptive token matching mechanism that jointly evaluates token similarity and task-critical sensitivity, merging low-risk tokens while safeguarding high-sensitivity ones. Extensive experiments across diverse leading MLLMs show that FlowMM reduces KV cache memory by 80% to 95% and decoding latency by 1.3-1.8x, while maintaining competitive task performance.
- Abstract(参考訳): 従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを捨て、しばしば生成品質を低下させ、コンテキスト損失や幻覚を引き起こす。
最近の取り組みは、類似性に基づくKVマージ、エクリエーショントークンと保持トークンとのマージへと移行している。
しかし、マルチモーダルシナリオでは、モダリティトークン間の分布バイアスと、クロスモーダル相互作用における注意バイアスは、その効果を制限している。
本研究では,フロー誘導型マルチモーダルKVキャッシュマージのための適応型フレームワークであるFlowMMを紹介する。
FlowMMは、クロスモーダル情報フローを活用して、レイヤ固有のマージ戦略を動的に適用し、コンテキスト整合性を維持しながら、モダリティ固有のパターンをキャプチャする。
さらに、トークンの類似性とタスククリティカルな感度を協調的に評価し、低リスクトークンをマージし、高感度トークンを保護できる感度適応型トークンマッチング機構を導入する。
FlowMMはKVキャッシュメモリを80%から95%減らし、遅延を1.3-1.8x減らし、競合するタスク性能を維持している。
関連論文リスト
- SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。
本研究では,SmallKVのスループットがベースライン法よりも1.75~2.56倍高いことを示す。
論文 参考訳(メタデータ) (2025-08-03T09:15:36Z) - MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference [13.069489189643441]
MadaKVは、長文推論のためのモダリティ適応型キー値キャッシュ消去戦略である。
KVキャッシュメモリのフットプリントとモデル推論復号遅延を大幅に削減する。
代表的MLLMとMileBenchベンチマークの実験は、MadaKVの有効性を実証している。
論文 参考訳(メタデータ) (2025-06-06T01:51:24Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - MEDA: Dynamic KV Cache Allocation for Efficient Multimodal Long-Context Inference [15.895020720304656]
MEDAはマルチモーダル長文推論のための動的層ワイドKVキャッシュ割り当て手法である。
MEDAは最大72%のKVキャッシュメモリと2.82倍のデコード速度を実現している。
論文 参考訳(メタデータ) (2025-02-24T19:34:52Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。