論文の概要: A Simple Plug-in for Improving Eviction-Based KV Cache Compression
- arxiv url: http://arxiv.org/abs/2605.23258v1
- Date: Fri, 22 May 2026 06:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.216607
- Title: A Simple Plug-in for Improving Eviction-Based KV Cache Compression
- Title(参考訳): 省略型KVキャッシュ圧縮改善のための簡易プラグイン
- Authors: Yuping Lin, Jiayuan Ding, Yue Xing, Pengfei He, Jiliang Tang, Subhabrata Mukherjee,
- Abstract要約: KVキャッシュの増大は、大規模言語モデルにおける長期コンテキスト推論の大きなボトルネックである。
本稿では,エビクションベースのパイプラインのためのプラグアンドプレイ拡張であるVECTORを提案する。
VECTORは中~高圧縮下でのメモリ品質のトレードオフを改善する。
- 参考スコア(独自算出の注目度): 45.534752680313886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV cache growth is a major bottleneck for long-context inference in large language models. Existing methods are often dominated by binary eviction or representation approximation, which may underutilize tokens that are not critical for exact retention but are still reconstructable. We present VECTOR, a plug-and-play augmentation for eviction-based pipelines that introduces three-way token routing: retention, approximation, and eviction. VECTOR combines an importance signal from the base scorer with a reconstructability signal from an offline-calibrated regression-based value estimation. By leveraging reconstructability, VECTOR recovers useful value information that would otherwise be irreversibly lost under binary eviction, while preserving key vectors for attention routing stability. Experimental results show that VECTOR improves quality-memory trade-offs under medium-to-high compression, with especially clear gains in stricter budget regimes.
- Abstract(参考訳): KVキャッシュの増大は、大規模言語モデルにおける長期コンテキスト推論の大きなボトルネックである。
既存のメソッドは、しばしばバイナリの消去や表現近似によって支配される。
VECTORは,3方向のトークンルーティング(保持,近似,消去)を導入した,エビクションベースのパイプラインのためのプラグアンドプレイ拡張である。
VECTORは、ベーススコアラからの重要信号と、オフライン校正回帰ベースの値推定からの再構成可能性信号とを結合する。
再構成性を活用することで、VECTORは二進法で不可逆的に失われる可能性のある有用な値情報を回収し、注意ルーティング安定性のための鍵ベクトルを保存する。
実験結果から,VECTORは中~高圧縮下でのメモリ品質のトレードオフを改善し,特に予算の厳格化が顕著であることがわかった。
関連論文リスト
- Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding? [19.77569541429818]
投機的復号化はLLM推論を加速させるが、SOTAの隠れ状態に基づく起草者は長距離減衰に悩まされる。
我々はコンテキスト情報保存の観点から長距離減衰を再考する。
KVShotは3つの再利用パラダイムを比較する診断フレームワークである。
論文 参考訳(メタデータ) (2026-04-29T08:25:01Z) - Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective [26.25624771395719]
キーバリュー(KV)キャッシングは、大きな言語モデル推論には不可欠だが、長いコンテキスト生成において重要なボトルネックとなる。
この研究は、Information Bottleneckの原理のレンズを通してKVキャッシュの消去を再考する。
本稿では,ログ決定式近似を用いて情報保存を直接ターゲットとするキャパシティ・アウェア・エビテーション法であるCapKVを紹介する。
論文 参考訳(メタデータ) (2026-04-28T12:28:04Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning [21.761205124793175]
拡張推論シーケンスでは、キー値(KV)キャッシュの増加によるGPUメモリオーバーヘッドが大幅に増加する。
既存のKVキャッシュ圧縮手法は、メモリボトルネックを軽減するが、長い推論タスクに苦労する。
トークンの繰り返しパターンに基づいた優先順位付けによる遅延繰り返しトークンを保持する観測窓ベースのラッチ消去フレームワークであるLazyEvictionを提案する。
論文 参考訳(メタデータ) (2025-06-19T02:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。