論文の概要: Learning to Evict from Key-Value Cache
- arxiv url: http://arxiv.org/abs/2602.10238v1
- Date: Tue, 10 Feb 2026 19:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.254426
- Title: Learning to Evict from Key-Value Cache
- Title(参考訳): キーバリューキャッシュから抜け出すための学習
- Authors: Luca Moschella, Laura Manduchi, Ozan Sener,
- Abstract要約: 我々はKV Policyを紹介した。KV Policyはトークンのランク付けを学習するためのフレームワークであり、将来的な復号化に役立つと予測されている。
長文ベンチマークRULERとマルチターンダイアログベンチマークOASST2-4kの2種類のモデルファミリで評価した。
その結果、将来のトークンユーティリティを予測する学習は、適応的なKVキャッシュ管理のための強力でスケーラブルなパラダイムであることが示されている。
- 参考スコア(独自算出の注目度): 17.365511268829703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing size of Large Language Models (LLMs) makes efficient inference challenging, primarily due to the memory demands of the autoregressive Key-Value (KV) cache. Existing eviction or compression methods reduce cost but rely on heuristics, such as recency or past attention scores, which serve only as indirect proxies for a token's future utility and introduce computational overhead. We reframe KV cache eviction as a reinforcement learning (RL) problem: learning to rank tokens by their predicted usefulness for future decoding. To this end, we introduce KV Policy (KVP), a framework of lightweight per-head RL agents trained on pre-computed generation traces using only key and value vectors. Each agent learns a specialized eviction policy guided by future utility, which evaluates the quality of the ranking across all cache budgets, requiring no modifications to the underlying LLM or additional inference. Evaluated across two different model families on the long-context benchmark RULER and the multi-turn dialogue benchmark OASST2-4k, KVP significantly outperforms baselines. Furthermore, zero-shot tests on standard downstream tasks (e.g., LongBench, BOOLQ, ARC) indicate that KVP generalizes well beyond its training distribution and to longer context lengths. These results demonstrate that learning to predict future token utility is a powerful and scalable paradigm for adaptive KV cache management.
- Abstract(参考訳): 大きな言語モデル(LLM)の増大は、主に自動回帰キーバリュー(KV)キャッシュのメモリ要求のために、効率的な推論を困難にしている。
既存の消去法や圧縮法はコストを削減できるが、遅延や過去の注意スコアのようなヒューリスティックな手法に依存しており、トークンの将来のユーティリティの間接プロキシとしてのみ機能し、計算オーバーヘッドを導入する。
我々はKVキャッシュ消去を強化学習(RL)問題として再設定し、将来の復号化に有効なトークンのランク付けを学習する。
この目的のために、キーベクトルと値ベクトルのみを用いて事前計算された生成トレースに基づいて訓練された、軽量なヘッド当たりRLエージェントのフレームワークであるKV Policy(KVP)を導入する。
各エージェントは、将来のユーティリティによって導かれる専門的な排除ポリシーを学習し、すべてのキャッシュ予算のランク付けの品質を評価し、基礎となるLCMの変更や追加の推論を必要としない。
長文ベンチマークRULERとマルチターンダイアログベンチマークOASST2-4kの2つのモデルファミリで評価され、KVPはベースラインを大幅に上回る。
さらに、標準下流タスク(例えば、LongBench、BOOLQ、ARC)のゼロショットテストは、KVPがトレーニング分布を超えてより長い文脈長を一般化していることを示している。
これらの結果は、将来のトークンユーティリティを予測する学習が、適応的なKVキャッシュ管理のための強力でスケーラブルなパラダイムであることを実証している。
関連論文リスト
- ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective [31.67506313325633]
KVキャッシュは、キー値(KV)ペアを以前のクエリから再利用することで、Large Language Model(LLM)推論を高速化する技術である。
デフォルトのLeast recently Used (LRU)消去アルゴリズムは、動的オンラインクエリの到着に苦労する。
我々は、KVキャッシュ消去とクエリルーティングのコアトレードオフをキャプチャする最初の統一数学的モデルを与える。
論文 参考訳(メタデータ) (2026-01-26T22:20:59Z) - Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs [26.951325519894525]
本稿では,軽量保持ゲートを介して各トークンの創出時の本質的な重要性を学習する手法を提案する。
我々は,特に低メモリ環境において,強い信念と学習可能な検索ベースラインを一貫して上回ることを示す。
一部の設定ではフルキャッシュモデルを超えており、選択的な保持が正規化の一形態として機能することを示している。
論文 参考訳(メタデータ) (2025-12-03T00:20:35Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。