Fugu-MT 論文翻訳(概要): Learning to Evict from Key-Value Cache

論文の概要: Learning to Evict from Key-Value Cache

arxiv url: http://arxiv.org/abs/2602.10238v1
Date: Tue, 10 Feb 2026 19:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-12 21:44:01.254426
Title: Learning to Evict from Key-Value Cache
Title（参考訳）: キーバリューキャッシュから抜け出すための学習
Authors: Luca Moschella, Laura Manduchi, Ozan Sener,
Abstract要約: 我々はKV Policyを紹介した。KV Policyはトークンのランク付けを学習するためのフレームワークであり、将来的な復号化に役立つと予測されている。長文ベンチマークRULERとマルチターンダイアログベンチマークOASST2-4kの2種類のモデルファミリで評価した。その結果、将来のトークンユーティリティを予測する学習は、適応的なKVキャッシュ管理のための強力でスケーラブルなパラダイムであることが示されている。
参考スコア（独自算出の注目度）: 17.365511268829703
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing size of Large Language Models (LLMs) makes efficient inference challenging, primarily due to the memory demands of the autoregressive Key-Value (KV) cache. Existing eviction or compression methods reduce cost but rely on heuristics, such as recency or past attention scores, which serve only as indirect proxies for a token's future utility and introduce computational overhead. We reframe KV cache eviction as a reinforcement learning (RL) problem: learning to rank tokens by their predicted usefulness for future decoding. To this end, we introduce KV Policy (KVP), a framework of lightweight per-head RL agents trained on pre-computed generation traces using only key and value vectors. Each agent learns a specialized eviction policy guided by future utility, which evaluates the quality of the ranking across all cache budgets, requiring no modifications to the underlying LLM or additional inference. Evaluated across two different model families on the long-context benchmark RULER and the multi-turn dialogue benchmark OASST2-4k, KVP significantly outperforms baselines. Furthermore, zero-shot tests on standard downstream tasks (e.g., LongBench, BOOLQ, ARC) indicate that KVP generalizes well beyond its training distribution and to longer context lengths. These results demonstrate that learning to predict future token utility is a powerful and scalable paradigm for adaptive KV cache management.
Abstract（参考訳）: 大きな言語モデル(LLM)の増大は、主に自動回帰キーバリュー(KV)キャッシュのメモリ要求のために、効率的な推論を困難にしている。既存の消去法や圧縮法はコストを削減できるが、遅延や過去の注意スコアのようなヒューリスティックな手法に依存しており、トークンの将来のユーティリティの間接プロキシとしてのみ機能し、計算オーバーヘッドを導入する。我々はKVキャッシュ消去を強化学習(RL)問題として再設定し、将来の復号化に有効なトークンのランク付けを学習する。この目的のために、キーベクトルと値ベクトルのみを用いて事前計算された生成トレースに基づいて訓練された、軽量なヘッド当たりRLエージェントのフレームワークであるKV Policy(KVP)を導入する。各エージェントは、将来のユーティリティによって導かれる専門的な排除ポリシーを学習し、すべてのキャッシュ予算のランク付けの品質を評価し、基礎となるLCMの変更や追加の推論を必要としない。長文ベンチマークRULERとマルチターンダイアログベンチマークOASST2-4kの2つのモデルファミリで評価され、KVPはベースラインを大幅に上回る。さらに、標準下流タスク(例えば、LongBench、BOOLQ、ARC)のゼロショットテストは、KVPがトレーニング分布を超えてより長い文脈長を一般化していることを示している。これらの結果は、将来のトークンユーティリティを予測する学習が、適応的なKVキャッシュ管理のための強力でスケーラブルなパラダイムであることを実証している。

関連論文リスト

ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文参考訳（メタデータ） (2026-02-03T07:16:51Z)
Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective [31.67506313325633]
KVキャッシュは、キー値(KV)ペアを以前のクエリから再利用することで、Large Language Model(LLM)推論を高速化する技術である。デフォルトのLeast recently Used (LRU)消去アルゴリズムは、動的オンラインクエリの到着に苦労する。我々は、KVキャッシュ消去とクエリルーティングのコアトレードオフをキャプチャする最初の統一数学的モデルを与える。
論文参考訳（メタデータ） (2026-01-26T22:20:59Z)
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文参考訳（メタデータ） (2026-01-25T03:07:54Z)
Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs [26.951325519894525]
本稿では,軽量保持ゲートを介して各トークンの創出時の本質的な重要性を学習する手法を提案する。我々は,特に低メモリ環境において,強い信念と学習可能な検索ベースラインを一貫して上回ることを示す。一部の設定ではフルキャッシュモデルを超えており、選択的な保持が正規化の一形態として機能することを示している。
論文参考訳（メタデータ） (2025-12-03T00:20:35Z)
G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。 KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文参考訳（メタデータ） (2025-11-29T14:21:33Z)
Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。 KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文参考訳（メタデータ） (2025-09-13T03:34:12Z)
Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文参考訳（メタデータ） (2025-05-20T14:14:38Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。