論文の概要: EvolKV: Evolutionary KV Cache Compression for LLM Inference
- arxiv url: http://arxiv.org/abs/2509.08315v1
- Date: Wed, 10 Sep 2025 06:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.32682
- Title: EvolKV: Evolutionary KV Cache Compression for LLM Inference
- Title(参考訳): EvolKV: LLM推論のための進化的KVキャッシュ圧縮
- Authors: Bohan Yu, Yekun Chai,
- Abstract要約: EvolKVは階層的にタスク駆動型のKVキャッシュ圧縮のための適応型フレームワークである。
EvolKVは、オリジナル予算の1.5%しか利用せず、完全なKVコード補完よりも優れたパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 16.100469422266045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing key-value (KV) cache compression methods typically rely on heuristics, such as uniform cache allocation across layers or static eviction policies, however, they ignore the critical interplays among layer-specific feature patterns and task performance, which can lead to degraded generalization. In this paper, we propose EvolKV, an adaptive framework for layer-wise, task-driven KV cache compression that jointly optimizes the memory efficiency and task performance. By reformulating cache allocation as a multi-objective optimization problem, EvolKV leverages evolutionary search to dynamically configure layer budgets while directly maximizing downstream performance. Extensive experiments on 11 tasks demonstrate that our approach outperforms all baseline methods across a wide range of KV cache budgets on long-context tasks and surpasses heuristic baselines by up to 7 percentage points on GSM8K. Notably, EvolKV achieves superior performance over the full KV cache setting on code completion while utilizing only 1.5% of the original budget, suggesting the untapped potential in learned compression strategies for KV cache budget allocation.
- Abstract(参考訳): 既存のキー値(KV)キャッシュ圧縮手法は、通常、レイヤ間の均一なキャッシュ割り当てや静的消去ポリシーのようなヒューリスティックな手法に依存するが、レイヤ固有の特徴パターンとタスクパフォーマンスの間の重要な相互作用を無視し、一般化の低下につながる可能性がある。
本稿では,メモリ効率とタスク性能を協調的に最適化する,階層的にタスク駆動型KVキャッシュ圧縮のための適応フレームワークであるEvolKVを提案する。
キャッシュ割り当てを多目的最適化問題として再構成することで、EvolKVは進化的探索を活用し、層予算を動的に設定し、下流の性能を直接最大化する。
11のタスクに対する大規模な実験により、長いコンテキストタスクにおいて、我々のアプローチはKVキャッシュの幅広い予算において全てのベースライン手法より優れており、GSM8K上では最大7%以上のヒューリスティックベースラインを超越していることが示された。
特に、EvolKVは、元の予算の1.5%しか利用せず、コード補完の完全なKVキャッシュ設定よりも優れたパフォーマンスを実現している。
関連論文リスト
- Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - EVICPRESS: Joint KV-Cache Compression and Eviction for Efficient LLM Serving [27.616284276071855]
KVキャッシュの再利用はLarge Language Model(LLM)推論システムの高効率化に不可欠である。
以前の作業では、KVキャッシュを低層ストレージデバイスに解放するか、KVキャッシュを圧縮して、より多くのKVキャッシュを高速メモリに適合させることが提案されていた。
複数のストレージ層にまたがるKVキャッシュに損失圧縮と適応消去を適用したKVキャッシュ管理システムEVICPRESSを提案する。
論文 参考訳(メタデータ) (2025-12-16T22:21:55Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference [9.572076809796448]
タスク適応型KVキャッシュウィンドウ選択手法であるWindowKVを提案する。
WindowKVは、元のKVキャッシュの12%しか使用せず、完全なKVキャッシュ保持に匹敵する性能を維持していることを示す。
提案手法は,Needle-in-a-Haystack評価における最先端の結果も達成し,その有効性と堅牢性を強調した。
論文 参考訳(メタデータ) (2025-03-23T03:36:52Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - DynamicKV: Task-Aware Adaptive KV Cache Compression for Long Context LLMs [31.62076958302603]
既存のKVキャッシュ圧縮手法は、タスク固有の特性を無視し、必須情報の保持を減らす固定パターンを強制する。
本研究では,各層に保持されるトークンの数を調整することで,トークン保持を動的に最適化するDynamicKVを提案する。
本手法は,LongBench上でのフルKVキャッシュ性能の85%を達成しながら,KVキャッシュサイズの1.7%しか保持しない。
論文 参考訳(メタデータ) (2024-12-19T13:28:42Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference [37.94892570127548]
大規模言語モデルは様々なドメインで優れていますが、キーバリュー(KV)キャッシュの増加によって効率上の課題に直面しています。
最近の取り組みは、実行中に大量の非クリティカルキャッシュ要素を排除し、KVキャッシュサイズを削減することを目的としている。
本稿では,Ada-KVを提案する。
論文 参考訳(メタデータ) (2024-07-16T09:53:32Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。