論文の概要: Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query
- arxiv url: http://arxiv.org/abs/2505.20334v1
- Date: Sat, 24 May 2025 10:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.180635
- Title: Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query
- Title(参考訳): Lookahead Q-Cache: Pseudo Queryによるより一貫性のあるKVキャッシュの確立
- Authors: Yixuan Wang, Shiyu Ji, Yijun Liu, Yuzhuang Xu, Yang Xu, Qingfu Zhu, Wanxiang Che,
- Abstract要約: KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。
プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン
Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
- 参考スコア(独自算出の注目度): 48.52389201779425
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) rely on key-value cache (KV cache) to accelerate decoding by reducing redundant computations. However, the KV cache memory usage grows substantially with longer text sequences, posing challenges for efficient deployment. Existing KV cache eviction methods prune tokens using prefilling-stage attention scores, causing inconsistency with actual inference queries, especially under tight memory budgets. In this paper, we propose Lookahead Q-Cache (LAQ), a novel eviction framework that generates low-cost pseudo lookahead queries to better approximate the true decoding-stage queries. By using these lookahead queries as the observation window for importance estimation, LAQ achieves more consistent and accurate KV cache eviction aligned with real inference scenarios. Experimental results on LongBench and Needle-in-a-Haystack benchmarks show that LAQ outperforms existing methods across various budget levels, achieving a 1 $\sim$ 4 point improvement on LongBench under limited cache budget. Moreover, LAQ is complementary to existing approaches and can be flexibly combined to yield further improvements.
- Abstract(参考訳): 大規模言語モデル(LLM)は、冗長な計算を減らして復号化を加速するためにキーバリューキャッシュ(KVキャッシュ)に依存している。
しかし、KVキャッシュのメモリ使用量は、長いテキストシーケンスで大幅に増加し、効率的なデプロイの難しさを浮き彫りにしている。
既存のKVキャッシュ消去手法では、プリフィルステージのアテンションスコアを使用してトークンをプルーンし、特に厳しいメモリ予算の下で、実際の推論クエリと矛盾する。
本稿では,低コストな疑似ルックアヘッドクエリを生成する新しい消去フレームワークであるLookahead Q-Cache(LAQ)を提案する。
これらのルックアヘッドクエリを重要度推定のための観測ウィンドウとして使用することにより、LAQは、実際の推論シナリオに合わせて、より一貫性と正確なKVキャッシュ消去を実現する。
LongBenchとNeedle-in-a-Haystackベンチマークの実験結果によると、LAQは様々な予算レベルで既存のメソッドよりも優れており、LongBenchではキャッシュ予算の制限により1$\sim$ 4ポイントの改善が達成されている。
さらに、LAQは既存のアプローチを補完するものであり、柔軟に組み合わせることでさらなる改善をもたらすことができる。
関連論文リスト
- CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.05521425453999]
大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。
我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。
CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文 参考訳(メタデータ) (2025-03-16T12:49:44Z) - A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization [17.342214950859145]
ロングコンテキストの大規模言語モデル(LLM)は、メモリフットプリントが大きく、KVキャッシュのアクセスオーバーヘッドが大きいため、効率的なサービスを実現する上で大きな課題となる。
検索ベースのKVキャッシュ削減手法は、一般的に完全なKVキャッシュをCPUにオフロードし、推論時に必要なトークンを取得することで、これらの課題を軽減することができる。
本稿では,新しい検索方式KVキャッシュ削減手法であるA$2$ATSを提案する。
論文 参考訳(メタデータ) (2025-02-18T09:11:51Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - PQCache: Product Quantization-based KVCache for Long Context LLM Inference [27.523568511043273]
Key-Value Cache (KVCache) は、大規模言語モデル(LLM)内のトークンの中間表現である。
本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
PQCacheは有効性と効率の両方を実現しており、InfiniteBenchの既存のメソッドよりも4.60%のスコアが向上している。
論文 参考訳(メタデータ) (2024-07-01T13:05:42Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention [13.041210267981613]
CachedAttentionは、マルチターン会話間でKVキャッシュの再利用を可能にする新しいアテンションメカニズムである。
これは、最初のトークン(TTFT)までの時間を最大87%削減し、マルチターン会話のスループットを最大7.8$times$に改善し、エンドツーエンドの推論コストを最大70%削減する。
論文 参考訳(メタデータ) (2024-03-23T10:42:49Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。