論文の概要: Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective
- arxiv url: http://arxiv.org/abs/2601.18999v1
- Date: Mon, 26 Jan 2026 22:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.084898
- Title: Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective
- Title(参考訳): ランダム化によってKVキャッシングが向上,クエリ負荷のバランスが向上
- Authors: Fangzhou Wu, Sandeep Silwal, Qiuyi, Zhang,
- Abstract要約: KVキャッシュは、キー値(KV)ペアを以前のクエリから再利用することで、Large Language Model(LLM)推論を高速化する技術である。
デフォルトのLeast recently Used (LRU)消去アルゴリズムは、動的オンラインクエリの到着に苦労する。
我々は、KVキャッシュ消去とクエリルーティングのコアトレードオフをキャプチャする最初の統一数学的モデルを与える。
- 参考スコア(独自算出の注目度): 31.67506313325633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV caching is a fundamental technique for accelerating Large Language Model (LLM) inference by reusing key-value (KV) pairs from previous queries, but its effectiveness under limited memory is highly sensitive to the eviction policy. The default Least Recently Used (LRU) eviction algorithm struggles with dynamic online query arrivals, especially in multi-LLM serving scenarios, where balancing query load across workers and maximizing cache hit rate of each worker are inherently conflicting objectives. We give the first unified mathematical model that captures the core trade-offs between KV cache eviction and query routing. Our analysis reveals the theoretical limitations of existing methods and leads to principled algorithms that integrate provably competitive randomized KV cache eviction with learning-based methods to adaptively route queries with evolving patterns, thus balancing query load and cache hit rate. Our theoretical results are validated by extensive experiments across 4 benchmarks and 3 prefix-sharing settings, demonstrating improvements of up to 6.92$\times$ in cache hit rate, 11.96$\times$ reduction in latency, 14.06$\times$ reduction in time-to-first-token (TTFT), and 77.4% increase in throughput over the state-of-the-art methods. Our code is available at https://github.com/fzwark/KVRouting.
- Abstract(参考訳): KVキャッシングは,従来のクエリからキー値(KV)ペアを再利用することで,LLM推論を高速化する基本的な手法である。
デフォルトのLeast recently Used (LRU)消去アルゴリズムは、特にマルチLLMサービスシナリオでは、ワーカ間のクエリ負荷のバランスと、各ワーカのキャッシュヒット率の最大化という、動的オンラインクエリの到着に苦労する。
我々は、KVキャッシュ消去とクエリルーティングのコアトレードオフをキャプチャする最初の統一数学的モデルを与える。
提案手法は,既存の手法の理論的限界を明らかにし,提案手法と学習に基づく手法を併用して,クエリを進化パターンと適応的にルーティングし,クエリ負荷とキャッシュヒット率のバランスをとる。
我々の理論的結果は、4つのベンチマークと3つのプレフィックス共有設定にわたる広範な実験によって検証され、キャッシュヒット率6.92$\times$、レイテンシの削減11.96$\times$、TTFT(Time-to-First-Token)の削減14.06$\times$、最先端のメソッドよりも77.4%のスループット向上を示す。
私たちのコードはhttps://github.com/fzwark/KVRouting.comから入手可能です。
関連論文リスト
- Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。
プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン
Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文 参考訳(メタデータ) (2025-05-24T10:34:38Z) - Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference [37.94892570127548]
大規模言語モデルは様々なドメインで優れていますが、キーバリュー(KV)キャッシュの増加によって効率上の課題に直面しています。
最近の取り組みは、実行中に大量の非クリティカルキャッシュ要素を排除し、KVキャッシュサイズを削減することを目的としている。
本稿では,Ada-KVを提案する。
論文 参考訳(メタデータ) (2024-07-16T09:53:32Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。