論文の概要: Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective
- arxiv url: http://arxiv.org/abs/2604.25975v1
- Date: Tue, 28 Apr 2026 12:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.114905
- Title: Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective
- Title(参考訳): 統一情報理論に基づくKVキャッシュ推定の再考
- Authors: Jiaming Yang, Chenwei Tang, Liangli Zhen, Jiancheng Lv,
- Abstract要約: キーバリュー(KV)キャッシングは、大きな言語モデル推論には不可欠だが、長いコンテキスト生成において重要なボトルネックとなる。
この研究は、Information Bottleneckの原理のレンズを通してKVキャッシュの消去を再考する。
本稿では,ログ決定式近似を用いて情報保存を直接ターゲットとするキャパシティ・アウェア・エビテーション法であるCapKVを紹介する。
- 参考スコア(独自算出の注目度): 26.25624771395719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key-value (KV) caching is essential for large language model inference, yet its memory overhead poses a critical bottleneck for long-context generation. Existing eviction policies predominantly rely on empirical heuristics, lacking a rigorous theoretical foundation. This work rethinks KV cache eviction through the lens of the Information Bottleneck principle. Under a linear-Gaussian surrogate of attention, we derive a closed-form mutual information objective that characterizes the effective information capacity of a retained KV cache subset. This formulation reveals that a wide range of existing eviction strategies can be interpreted as different approximations of the same capacity-maximization principle. Guided by this insight, we introduce CapKV, a capacity-aware eviction method that directly targets information preservation via a log-determinant approximation using statistical leverage scores. This approach replaces heuristic selection with a theoretically grounded mechanism that preserves the maximum predictive signal. Extensive experiments across multiple models and long-context benchmarks show that CapKV consistently outperforms prior methods, achieving a better trade-off between memory efficiency and generational fidelity.
- Abstract(参考訳): キーバリュー(KV)キャッシングは大きな言語モデル推論には不可欠だが、そのメモリオーバーヘッドは長いコンテキスト生成において重要なボトルネックとなる。
既存の排除政策は経験的ヒューリスティックに大きく依存しており、厳密な理論基盤を欠いている。
この研究は、Information Bottleneckの原理のレンズを通してKVキャッシュの消去を再考する。
本稿では,KVキャッシュサブセットの有効情報容量を特徴付ける,閉形式の相互情報目標を導出する。
この定式化により、既存の幅広い解法は、同じキャパシティ・最大化原理の異なる近似として解釈できることが明らかになった。
この知見に導かれたCapKVは,統計レバレッジスコアを用いた対数決定式近似を用いて情報保存を直接ターゲットとするキャパシティ・アウェア・エビテーション手法である。
このアプローチはヒューリスティックな選択を、最大予測信号を保存する理論的に基底化されたメカニズムに置き換える。
複数のモデルと長期コンテキストのベンチマークによる大規模な実験により、CapKVは従来手法よりも優れた性能を示し、メモリ効率と世代間の整合性が向上した。
関連論文リスト
- Learning to Evict from Key-Value Cache [17.365511268829703]
我々はKV Policyを紹介した。KV Policyはトークンのランク付けを学習するためのフレームワークであり、将来的な復号化に役立つと予測されている。
長文ベンチマークRULERとマルチターンダイアログベンチマークOASST2-4kの2種類のモデルファミリで評価した。
その結果、将来のトークンユーティリティを予測する学習は、適応的なKVキャッシュ管理のための強力でスケーラブルなパラダイムであることが示されている。
論文 参考訳(メタデータ) (2026-02-10T19:34:15Z) - Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction [19.14455067106419]
現在のKVキャッシュ消去法は、すべての頭において重要な指標としてスコアが一貫したプロキシであることを暗黙的に仮定して、瞬時メトリクスに依存している。
本稿では,長期的セマンティック情報を保存する上で,最適予算配分は限界効用によって管理されるべきであることを示す。
LU-KVの実践的展開を容易にするために,データ駆動型オフラインプロファイリングプロトコルを実装した。
論文 参考訳(メタデータ) (2026-02-09T12:23:38Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。
我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文 参考訳(メタデータ) (2025-09-18T15:04:06Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - KVSink: Understanding and Enhancing the Preservation of Attention Sinks in KV Cache Quantization for LLMs [0.0]
キーバリュー(KV)キャッシュ量子化は,大規模言語モデル(LLM)推論において広く採用されている最適化手法である。
近年の研究は、注意シンクの保護を確保するために、最初の数個のトークンに対してKVの本来の精度を維持することの重要性を強調している。
我々は,シンクトークンを無視できるオーバーヘッドで効果的に予測するプラグイン・アンド・プレイ方式であるtextittextbf KVSinkを紹介した。
論文 参考訳(メタデータ) (2025-08-06T09:40:09Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - D2O: Dynamic Discriminative Operations for Efficient Long-Context Inference of Large Language Models [28.244034916473804]
大きな言語モデル(LLM)における生成的推論は、キーバリュー(KV)キャッシュのメモリ要求の増加によって妨げられる。
従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを捨て、コンテキスト損失や幻覚などの問題を引き起こす。
そこで我々は,KVキャッシュサイズを動的かつ2段階に最適化するKVキャッシュ圧縮手法であるDynamic Discriminative Operations (D2O)を紹介した。
論文 参考訳(メタデータ) (2024-06-18T20:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。