論文の概要: EpiCache: Episodic KV Cache Management for Long Conversational Question Answering
- arxiv url: http://arxiv.org/abs/2509.17396v2
- Date: Thu, 25 Sep 2025 10:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 12:02:33.916518
- Title: EpiCache: Episodic KV Cache Management for Long Conversational Question Answering
- Title(参考訳): EpiCache: 長期会話型質問応答のためのエピソードKVキャッシュ管理
- Authors: Minsoo Kim, Arnav Kundu, Han-Byul Kim, Richa Dixit, Minsik Cho,
- Abstract要約: 長時間会話型質問応答のためのトレーニング不要なKVキャッシュ管理フレームワークであるEpiCacheを紹介した。
EpiCacheはブロックワイズプリフィルを通じてキャッシュの成長を制限し、エピソードKV圧縮を通じてトピック関連コンテキストを保存する。
3つのLongConvQAベンチマークで、EpiCacheは最近のベースラインよりも40%の精度向上を実現し、4-6倍の圧縮でほぼフルなKVの精度を維持し、レイテンシとメモリを最大2.4倍と3.5倍に削減した。
- 参考スコア(独自算出の注目度): 15.288494370436469
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern large language models (LLMs) extend context lengths to up to millions of tokens, enabling AI assistants to generate coherent and personalized responses grounded in long conversational histories. This ability, however, hinges on Key-Value (KV) caching, whose memory grows linearly with dialogue length and quickly becomes the bottleneck in resource-constrained environments. An active line of research for reducing memory bottleneck is KV cache compression, which seeks to limit cache size while preserving accuracy. Yet existing methods face two major limitations: (i) evicting the KV cache after full-context prefill causes unbounded peak memory, and (ii) query-dependent eviction narrows the cache to a single query, leading to failure cases in multi-turn conversations. We introduce EpiCache, a training-free KV cache management framework for long conversational question answering (LongConvQA) under fixed memory budgets. EpiCache bounds cache growth through block-wise prefill and preserves topic-relevant context via episodic KV compression, which clusters conversation history into coherent episodes and applies episode-specific KV cache eviction. We further design an adaptive layer-wise budget allocation strategy that measures each layer's sensitivity to eviction and distributes the memory budget across layers accordingly. Across three LongConvQA benchmarks, EpiCache improves accuracy by up to 40% over recent baselines, sustains near-full KV accuracy under 4-6x compression, and reduces latency and memory by up to 2.4x and 3.5x, thereby enabling efficient multi-turn interaction under strict resource constraints.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、コンテキスト長を最大数百万のトークンまで拡張し、AIアシスタントが長い会話履歴に基づく一貫性とパーソナライズされた応答を生成できるようにする。
しかし、この能力はキーバリュー(KV)キャッシングに依存しており、メモリは対話長とともに線形に成長し、リソース制約のある環境ではすぐにボトルネックとなる。
メモリボトルネックを低減するための研究の活発な行はKVキャッシュ圧縮であり、精度を維持しながらキャッシュサイズを制限することを目指している。
しかし、既存のメソッドには2つの大きな制限がある。
i) フルコンテクストプリフィル後のKVキャッシュの消去は、無制限のピークメモリを引き起こし、
(ii) クエリ依存の消去は、キャッシュを単一のクエリに絞り込み、マルチターン会話における障害ケースにつながる。
本稿では,長期会話型質問応答(LongConvQA)のためのトレーニング不要なKVキャッシュ管理フレームワークであるEpiCacheを紹介する。
EpiCacheはブロック単位のプリフィルを通じてキャッシュの成長を制限し、エピソディックなKV圧縮を通じてトピック関連コンテキストを保存する。
さらに、各レイヤの退避に対する感度を計測し、それに応じてメモリ予算をレイヤ間で分散する、適応的なレイヤ単位の予算配分戦略を設計する。
3つのLongConvQAベンチマークで、EpiCacheは最近のベースラインよりも40%の精度向上を実現し、4-6倍の圧縮でほぼ完全なKV精度を維持し、レイテンシとメモリを2.4倍と3.5倍に削減し、厳しいリソース制約下で効率的なマルチターンインタラクションを可能にする。
関連論文リスト
- Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。
プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン
Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文 参考訳(メタデータ) (2025-05-24T10:34:38Z) - CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.05521425453999]
大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。
我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。
CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文 参考訳(メタデータ) (2025-03-16T12:49:44Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention [13.041210267981613]
CachedAttentionは、マルチターン会話間でKVキャッシュの再利用を可能にする新しいアテンションメカニズムである。
これは、最初のトークン(TTFT)までの時間を最大87%削減し、マルチターン会話のスループットを最大7.8$times$に改善し、エンドツーエンドの推論コストを最大70%削減する。
論文 参考訳(メタデータ) (2024-03-23T10:42:49Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。