論文の概要: LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction
- arxiv url: http://arxiv.org/abs/2605.06676v1
- Date: Wed, 22 Apr 2026 06:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.670363
- Title: LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction
- Title(参考訳): LKV:LLM KVキャッシュ推定のための頭部予算のエンド・ツー・エンド学習とトークン選択
- Authors: Enshuai Zhou, Yifan Hao, Chao Wang, Rui Zhang, Di Huang, Jiaming Guo, Xing Hu, Zidong Du, Qi Guo, Yunji Chen,
- Abstract要約: 本稿では,KV圧縮をエンドツーエンドの微分可能最適化問題として定式化するLKV(Learned KV Eviction)を提案する。
LKVは、LongBenchベンチマークとRULERベンチマークの両方で、高い圧縮速度で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 46.60403085398673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context inference in Large Language Models (LLMs) is bottlenecked by the linear growth of Key-Value (KV) cache memory. Existing KV cache compression paradigms are fundamentally limited by heuristics: heuristic budgeting relies on statistical priors rather than task objectives, causing resource misallocation, while heuristic selection relies on coupled query-key interactions or static inductive biases (e.g., attention sinks). To address this limitation, we introduce LKV (Learned KV Eviction), which formulates KV compression as an end-to-end differentiable optimization problem. LKV integrates LKV-H to learn task-optimized global budgets, and LKV-T to derive intrinsic KV importance without materializing attention matrices. This design bypasses heuristic proxies, strictly aligning compression with task objectives. Extensive evaluations demonstrate that LKV achieves state-of-the-art performance on both LongBench and RULER benchmarks at high compression rates. In particular, on LongBench, LKV achieves near-lossless performance with only 15\% KV cache retention. Crucially, our analysis identifies learned budgeting as the dominant driver of fidelity, demonstrating that data-driven allocation is essential to overcome the limitations of hand-crafted heuristics.
- Abstract(参考訳): LLM(Long-context Inference in Large Language Models)はキーバリュー(KV)キャッシュメモリの線形成長によってボトルネックとなる。
既存のKVキャッシュ圧縮パラダイムは、ヒューリスティックによって基本的に制限されている: ヒューリスティックな予算化は、タスク目標よりも統計的な事前に依存し、リソースのずれを引き起こし、ヒューリスティックな選択は、クエリキーの相互作用や静的な帰納バイアス(注意シンクなど)に依存する。
この制限に対処するために,KV圧縮をエンドツーエンドの微分可能最適化問題として定式化するLKV(Learned KV Eviction)を導入する。
LKVはLKV-Hを統合し、タスク最適化されたグローバル予算を学習し、LKV-Tは注意行列を実体化せずに本質的なKVの重要性を導き出す。
この設計はヒューリスティックなプロキシをバイパスし、圧縮とタスクの目的を厳密に整合させる。
LKVはLongBenchベンチマークとRULERベンチマークの両方で高い圧縮速度で最先端の性能を達成している。
特にLongBenchでは、LKVは15.5%のKVキャッシュ保持しか持たない、ほぼロスレスなパフォーマンスを実現している。
本分析では,手作りヒューリスティックス(Huristics)の限界を克服するためには,データ駆動型アロケーションが不可欠であることを示す。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Low-Rank Key Value Attention [3.7728602841318426]
トランスフォーマーの事前訓練は、メモリと計算要求によってますます制限される。
マルチヘッドアテンションの簡易な修正として,テキストトローランクKV適応(LRKV)を提案する。
LRKVは標準的なマルチヘッドアテンションの代替品である。
論文 参考訳(メタデータ) (2026-01-16T17:56:40Z) - LouisKV: Efficient KV Cache Retrieval for Long Input-Output Sequences [12.093166735658626]
キーバリュー(KV)キャッシュは、自動回帰モデルにおける冗長な計算の削減に成功している。
メモリオーバーヘッドが大幅に増加し、長時間のシナリオでの実際のデプロイメントが制限される。
既存のKV検索手法は,ページ単位の検索やページ単位の粗いKV管理によって,顕著な効率性と精度のボトルネックに悩まされている。
論文 参考訳(メタデータ) (2025-10-13T11:28:30Z) - KV-Efficient VLA: A Method of Speed up Vision Language Model with RNN-Gated Chunked KV Cache [0.9238700679836854]
VLA(Vision-Language-Action)モデルは、ロボットの認識と制御の統一を約束するが、そのスケーラビリティは、長軸推論における注意の二次的コストとキー値(KV)メモリの非有界成長によって制約される。
KV-Efficient VLAは、高ユーティリティコンテキストを選択的に保持する軽量なトレーニングフレンドリーなメカニズムを導入することで、これらの制限に対処するモデルに依存しないメモリ圧縮フレームワークである。
提案手法は,既存の自己回帰およびハイブリッドVLAスタックにシームレスに統合し,トレーニングパイプラインや下流制御ロジックを変更することなく,スケーラブルな推論を可能にする。
論文 参考訳(メタデータ) (2025-09-20T02:04:24Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - MiniKV: Pushing the Limits of LLM Inference via 2-Bit Layer-Discriminative KV Cache [17.58398289266989]
Mini KVは、KVキャッシュサイズを大幅に削減しつつ、長時間のコンテキストタスクの精度を同時に保持するKVキャッシュ最適化手法である。
我々は,Mini KVが86%のKVキャッシュ圧縮比を実現し,98.5%以上の精度を回復し,最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-11-27T06:10:49Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。