論文の概要: EVICPRESS: Joint KV-Cache Compression and Eviction for Efficient LLM Serving
- arxiv url: http://arxiv.org/abs/2512.14946v1
- Date: Tue, 16 Dec 2025 22:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.800108
- Title: EVICPRESS: Joint KV-Cache Compression and Eviction for Efficient LLM Serving
- Title(参考訳): EVICPRESS:効率的なLDM実行のための共同KVキャッシュ圧縮と評価
- Authors: Shaoting Feng, Yuhan Liu, Hanchen Li, Xiaokun Chen, Samuel Shen, Kuntai Du, Zhuohan Gu, Rui Zhang, Yuyang Huang, Yihua Cheng, Jiayi Yao, Qizheng Zhang, Ganesh Ananthanarayanan, Junchen Jiang,
- Abstract要約: KVキャッシュの再利用はLarge Language Model(LLM)推論システムの高効率化に不可欠である。
以前の作業では、KVキャッシュを低層ストレージデバイスに解放するか、KVキャッシュを圧縮して、より多くのKVキャッシュを高速メモリに適合させることが提案されていた。
複数のストレージ層にまたがるKVキャッシュに損失圧縮と適応消去を適用したKVキャッシュ管理システムEVICPRESSを提案する。
- 参考スコア(独自算出の注目度): 27.616284276071855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reusing KV cache is essential for high efficiency of Large Language Model (LLM) inference systems. With more LLM users, the KV cache footprint can easily exceed GPU memory capacity, so prior work has proposed to either evict KV cache to lower-tier storage devices, or compress KV cache so that more KV cache can be fit in the fast memory. However, prior work misses an important opportunity: jointly optimizing the eviction and compression decisions across all KV caches to minimize average generation latency without hurting quality. We propose EVICPRESS, a KV-cache management system that applies lossy compression and adaptive eviction to KV cache across multiple storage tiers. Specifically, for each KV cache of a context, EVICPRESS considers the effect of compression and eviction of the KV cache on the average generation quality and delay across all contexts as a whole. To achieve this, EVICPRESS proposes a unified utility function that quantifies the effect of quality and delay of the lossy compression or eviction. To this end, EVICPRESS's profiling module periodically updates the utility function scores on all possible eviction-compression configurations for all contexts and places KV caches using a fast heuristic to rearrange KV caches on all storage tiers, with the goal of maximizing the utility function scores on each storage tier. Compared to the baselines that evict KV cache or compress KV cache, EVICPRESS achieves higher KV-cache hit rates on fast devices, i.e., lower delay, while preserving high generation quality by applying conservative compression to contexts that are sensitive to compression errors. Evaluation on 12 datasets and 5 models demonstrates that EVICPRESS achieves up to 2.19x faster time-to-first-token (TTFT) at equivalent generation quality.
- Abstract(参考訳): KVキャッシュの再利用はLarge Language Model(LLM)推論システムの高効率化に不可欠である。
より多くのLLMユーザの場合、KVキャッシュフットプリントはGPUメモリ容量をはるかに超えるため、KVキャッシュを低層ストレージデバイスに解放するか、KVキャッシュを圧縮して、より多くのKVキャッシュを高速メモリに適合させることが提案されている。
しかしながら、以前の作業は重要な機会を逃している: 品質を損なうことなく、平均生成遅延を最小限に抑えるために、すべてのKVキャッシュ間での排除と圧縮の決定を共同で最適化する。
複数のストレージ層にまたがるKVキャッシュに損失圧縮と適応消去を適用したKVキャッシュ管理システムEVICPRESSを提案する。
具体的には、コンテキストの各KVキャッシュに対して、EVICPRESSは、すべてのコンテキストにわたる平均生成品質と遅延に対するKVキャッシュの圧縮と消去の影響を、全体として考慮する。
これを実現するために、EVICPRESSは、損失圧縮または消去の品質と遅延の影響を定量化する統一ユーティリティ関数を提案する。
この目的のために、EVICPRESSのプロファイリングモジュールは、すべてのコンテキストと場所の可能なすべてのエビクション圧縮設定に関するユーティリティ関数スコアを定期的に更新し、KVキャッシュを高速なヒューリスティックですべてのストレージ層で再配置し、各ストレージ層におけるユーティリティ関数スコアを最大化する。
KVキャッシュや圧縮KVキャッシュを排除したベースラインと比較して、EVICPRESSは高速デバイス、すなわち低遅延でより高いKVキャッシュヒット率を達成すると同時に、圧縮エラーに敏感なコンテキストに保守的な圧縮を適用することで、高世代品質を保っている。
12のデータセットと5つのモデルの評価は、EVICPRESSが同等の生成品質で最大2.19倍高速なTTFT(Time-to-first-token)を達成することを示す。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - EvolKV: Evolutionary KV Cache Compression for LLM Inference [16.100469422266045]
EvolKVは階層的にタスク駆動型のKVキャッシュ圧縮のための適応型フレームワークである。
EvolKVは、オリジナル予算の1.5%しか利用せず、完全なKVコード補完よりも優れたパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-09-10T06:32:49Z) - KVComp: A High-Performance, LLM-Aware, Lossy Compression Framework for KV Cache [7.019967158501771]
長文生成に最適化された汎用的で効率的なKVキャッシュ管理フレームワークであるKVCompを提案する。
KVCompは、KVキャッシュデータ特性に特化して設計された新しい損失圧縮技術を採用している。
KVCompは,従来の手法に比べて最大83%のメモリ削減率で,平均47%,最大83%の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-30T18:25:19Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.97434606840326]
トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。
コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。
本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文 参考訳(メタデータ) (2025-05-29T13:05:47Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [48.904743679691414]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - Lossless KV Cache Compression to 2% [22.98828332096935]
この研究は、KVキャッシュを元のサイズの2%未満に圧縮することを目的とした、新しいアーキテクチャであるCLLA(Cross-Layer Latent Attention)を導入している。
CLLAは、アテンションヘッド/ディメンション低減、レイヤ共有、量子化技術を結合的なフレームワークに統合する。
論文 参考訳(メタデータ) (2024-10-20T02:17:35Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。