論文の概要: Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
- arxiv url: http://arxiv.org/abs/2511.16786v1
- Date: Thu, 20 Nov 2025 20:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.804591
- Title: Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
- Title(参考訳): マルチモーダルKVキャッシュ圧縮の再検討:周波数領域誘導外周KV認識アプローチ
- Authors: Yaoxin Yang, Peng Ye, Xudong Tan, Chongjun Tu, Maosen Zhao, Jia Hao, Tao Chen,
- Abstract要約: マルチモーダルな大言語モデルは、KVキャッシュが入力長に比例して増加するため、かなりの推論オーバーヘッドに悩まされる。
既存のマルチモーダルなKVキャッシュ圧縮手法は、キャッシュサイズを減らすためにアテンションスコアに依存している。
我々は、周波数領域誘導型、外周KV対応KVキャッシュ圧縮フレームワークであるFlashCacheを提案する。
- 参考スコア(独自算出の注目度): 9.778764951947016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models suffer from substantial inference overhead since multimodal KV Cache grows proportionally with the visual input length. Existing multimodal KV Cache compression methods mostly rely on attention score to reduce cache size, which makes them are incompatible with established efficient attention kernels (e.g., FlashAttention) and ignores the contribution of value vectors to the attention output. In this work, we revisit multimodal KV Cache compression from the perspective of the KV matrices' distribution. First, we observe that frequency-domain energy of multimodal KV matrices is predominantly concentrated in low-frequency and extract this principal energy via a low-pass filter. Further, we find that removing KV pairs that deviate substantially from this principal energy leads to a pronounced performance drop, which we define as Outlier KVs. Considering Outlier KVs are more likely to encode features critical for inference, we propose FlashCache, a frequency-domain-guided, Outlier-KV-aware KV Cache compression framework. First, we introduce an Outlier KV Recognition Module that models the principal component of multimodal KV matrices in the frequency domain and preferentially retains KV pairs that significantly deviate from it. Furthermore, Dynamic Budget Allocation Module is designed to adaptively determine the per-layer KV Cache size to retain more Outlier KVs. Experiments on multiple MLLMs and benchmarks demonstrate that FlashCache outperforms state-of-the-art multimoal KV compression methods, achieving up to 1.69 times faster decoding with 80% lower KV memory usage while maintaining task performance.
- Abstract(参考訳): マルチモーダルなKVキャッシュは視覚入力長に比例して大きくなるため、マルチモーダルな大言語モデルはかなりの推測オーバーヘッドに悩まされる。
既存のマルチモーダルKVキャッシュ圧縮手法は、主にアテンションスコアに頼ってキャッシュサイズを減らすため、確立されたアテンションカーネル(例えば、FlashAttention)と互換性がなく、アテンション出力に対する値ベクトルの寄与を無視している。
本研究では,KV行列分布の観点から,マルチモーダルなKVキャッシュ圧縮を再検討する。
まず、マルチモーダルKV行列の周波数領域エネルギーは、主に低周波に集中しており、この主エネルギーを低通過フィルタで抽出する。
さらに、この主エネルギーから大きく逸脱するKV対を除去すると、顕著な性能低下が起こり、ここではoutlier KVsと定義する。
Outlier KVは推論に必須な機能をエンコードする可能性が高いので、周波数領域に誘導される、Outlier-KV対応のKVキャッシュ圧縮フレームワークであるFlashCacheを提案する。
まず、周波数領域におけるマルチモーダルKV行列の主成分をモデル化し、それから著しく逸脱したKVペアを優先的に保持するoutlier KV認識モジュールを提案する。
さらに、動的予算割当モジュールは、層ごとのKVキャッシュサイズを適応的に決定して、より多くの外部KVを保持するように設計されている。
複数のMLLMとベンチマークの実験では、FlashCacheは最先端のマルチモーダルKV圧縮手法より優れており、タスク性能を維持しながら、80%のKVメモリ使用率で最大1.69倍高速なデコードを実現している。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - KV-CAR: KV Cache Compression using Autoencoders and KV Reuse in Large Language Models [3.5171501100868876]
KVキャッシュはシーケンス長と埋め込み次元で成長し、しばしばモデル自体のメモリフットプリントを超える。
KV CARは,モデル忠実性を維持しつつ,KVキャッシュストレージを大幅に削減する,統一的で非依存なアーキテクチャフレームワークである。
Wikitext、C4、PIQA、WinograndeデータセットにわたるGPT 2とTinyLLaMAモデルの評価は、KV CARが最大47.85パーセントのKVキャッシュメモリ削減を達成したことを示している。
論文 参考訳(メタデータ) (2025-12-07T08:40:52Z) - Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models [14.603288559638614]
textttMixKVは、視覚言語モデルにおける最適化KVキャッシュ圧縮において重要度と多様性を混合する新しい手法である。
極端な圧縮の下で、textttMixKVは5つのマルチモーダル理解ベンチマークで平均で textbf5.1% のベースラインメソッドを改善している。
論文 参考訳(メタデータ) (2025-10-23T16:17:47Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - FairKV: Balancing Per-Head KV Cache for Fast Multi-GPU Inference [11.148691507097341]
TransformerモデルにおけるKVキャッシュ技術は、メモリ使用量を大幅に増加させ、冗長な計算を減らすことを目的としている。
近年、最先端のKVキャッシュ圧縮手法では、各アテンションヘッドのKVキャッシュ予算を動的に調整する不均衡なヘッドアロケーションアルゴリズムが実装されている。
本研究では,不均衡なKVキャッシュ圧縮を用いたシステムにおいて,アテンションヘッド間のメモリ使用量を確保するためのFair KVを提案する。
論文 参考訳(メタデータ) (2025-02-19T06:14:27Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。