論文の概要: Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
- arxiv url: http://arxiv.org/abs/2511.16786v1
- Date: Thu, 20 Nov 2025 20:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.804591
- Title: Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
- Title(参考訳): マルチモーダルKVキャッシュ圧縮の再検討:周波数領域誘導外周KV認識アプローチ
- Authors: Yaoxin Yang, Peng Ye, Xudong Tan, Chongjun Tu, Maosen Zhao, Jia Hao, Tao Chen,
- Abstract要約: マルチモーダルな大言語モデルは、KVキャッシュが入力長に比例して増加するため、かなりの推論オーバーヘッドに悩まされる。
既存のマルチモーダルなKVキャッシュ圧縮手法は、キャッシュサイズを減らすためにアテンションスコアに依存している。
我々は、周波数領域誘導型、外周KV対応KVキャッシュ圧縮フレームワークであるFlashCacheを提案する。
- 参考スコア(独自算出の注目度): 9.778764951947016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models suffer from substantial inference overhead since multimodal KV Cache grows proportionally with the visual input length. Existing multimodal KV Cache compression methods mostly rely on attention score to reduce cache size, which makes them are incompatible with established efficient attention kernels (e.g., FlashAttention) and ignores the contribution of value vectors to the attention output. In this work, we revisit multimodal KV Cache compression from the perspective of the KV matrices' distribution. First, we observe that frequency-domain energy of multimodal KV matrices is predominantly concentrated in low-frequency and extract this principal energy via a low-pass filter. Further, we find that removing KV pairs that deviate substantially from this principal energy leads to a pronounced performance drop, which we define as Outlier KVs. Considering Outlier KVs are more likely to encode features critical for inference, we propose FlashCache, a frequency-domain-guided, Outlier-KV-aware KV Cache compression framework. First, we introduce an Outlier KV Recognition Module that models the principal component of multimodal KV matrices in the frequency domain and preferentially retains KV pairs that significantly deviate from it. Furthermore, Dynamic Budget Allocation Module is designed to adaptively determine the per-layer KV Cache size to retain more Outlier KVs. Experiments on multiple MLLMs and benchmarks demonstrate that FlashCache outperforms state-of-the-art multimoal KV compression methods, achieving up to 1.69 times faster decoding with 80% lower KV memory usage while maintaining task performance.
- Abstract(参考訳): マルチモーダルなKVキャッシュは視覚入力長に比例して大きくなるため、マルチモーダルな大言語モデルはかなりの推測オーバーヘッドに悩まされる。
既存のマルチモーダルKVキャッシュ圧縮手法は、主にアテンションスコアに頼ってキャッシュサイズを減らすため、確立されたアテンションカーネル(例えば、FlashAttention)と互換性がなく、アテンション出力に対する値ベクトルの寄与を無視している。
本研究では,KV行列分布の観点から,マルチモーダルなKVキャッシュ圧縮を再検討する。
まず、マルチモーダルKV行列の周波数領域エネルギーは、主に低周波に集中しており、この主エネルギーを低通過フィルタで抽出する。
さらに、この主エネルギーから大きく逸脱するKV対を除去すると、顕著な性能低下が起こり、ここではoutlier KVsと定義する。
Outlier KVは推論に必須な機能をエンコードする可能性が高いので、周波数領域に誘導される、Outlier-KV対応のKVキャッシュ圧縮フレームワークであるFlashCacheを提案する。
まず、周波数領域におけるマルチモーダルKV行列の主成分をモデル化し、それから著しく逸脱したKVペアを優先的に保持するoutlier KV認識モジュールを提案する。
さらに、動的予算割当モジュールは、層ごとのKVキャッシュサイズを適応的に決定して、より多くの外部KVを保持するように設計されている。
複数のMLLMとベンチマークの実験では、FlashCacheは最先端のマルチモーダルKV圧縮手法より優れており、タスク性能を維持しながら、80%のKVメモリ使用率で最大1.69倍高速なデコードを実現している。
関連論文リスト
- R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。