論文の概要: EvolKV: Evolutionary KV Cache Compression for LLM Inference
- arxiv url: http://arxiv.org/abs/2509.08315v1
- Date: Wed, 10 Sep 2025 06:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.32682
- Title: EvolKV: Evolutionary KV Cache Compression for LLM Inference
- Title(参考訳): EvolKV: LLM推論のための進化的KVキャッシュ圧縮
- Authors: Bohan Yu, Yekun Chai,
- Abstract要約: EvolKVは階層的にタスク駆動型のKVキャッシュ圧縮のための適応型フレームワークである。
EvolKVは、オリジナル予算の1.5%しか利用せず、完全なKVコード補完よりも優れたパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 16.100469422266045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing key-value (KV) cache compression methods typically rely on heuristics, such as uniform cache allocation across layers or static eviction policies, however, they ignore the critical interplays among layer-specific feature patterns and task performance, which can lead to degraded generalization. In this paper, we propose EvolKV, an adaptive framework for layer-wise, task-driven KV cache compression that jointly optimizes the memory efficiency and task performance. By reformulating cache allocation as a multi-objective optimization problem, EvolKV leverages evolutionary search to dynamically configure layer budgets while directly maximizing downstream performance. Extensive experiments on 11 tasks demonstrate that our approach outperforms all baseline methods across a wide range of KV cache budgets on long-context tasks and surpasses heuristic baselines by up to 7 percentage points on GSM8K. Notably, EvolKV achieves superior performance over the full KV cache setting on code completion while utilizing only 1.5% of the original budget, suggesting the untapped potential in learned compression strategies for KV cache budget allocation.
- Abstract(参考訳): 既存のキー値(KV)キャッシュ圧縮手法は、通常、レイヤ間の均一なキャッシュ割り当てや静的消去ポリシーのようなヒューリスティックな手法に依存するが、レイヤ固有の特徴パターンとタスクパフォーマンスの間の重要な相互作用を無視し、一般化の低下につながる可能性がある。
本稿では,メモリ効率とタスク性能を協調的に最適化する,階層的にタスク駆動型KVキャッシュ圧縮のための適応フレームワークであるEvolKVを提案する。
キャッシュ割り当てを多目的最適化問題として再構成することで、EvolKVは進化的探索を活用し、層予算を動的に設定し、下流の性能を直接最大化する。
11のタスクに対する大規模な実験により、長いコンテキストタスクにおいて、我々のアプローチはKVキャッシュの幅広い予算において全てのベースライン手法より優れており、GSM8K上では最大7%以上のヒューリスティックベースラインを超越していることが示された。
特に、EvolKVは、元の予算の1.5%しか利用せず、コード補完の完全なKVキャッシュ設定よりも優れたパフォーマンスを実現している。
関連論文リスト
- DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - DynamicKV: Task-Aware Adaptive KV Cache Compression for Long Context LLMs [31.62076958302603]
既存のKVキャッシュ圧縮手法は、タスク固有の特性を無視し、必須情報の保持を減らす固定パターンを強制する。
本研究では,各層に保持されるトークンの数を調整することで,トークン保持を動的に最適化するDynamicKVを提案する。
本手法は,LongBench上でのフルKVキャッシュ性能の85%を達成しながら,KVキャッシュサイズの1.7%しか保持しない。
論文 参考訳(メタデータ) (2024-12-19T13:28:42Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。