論文の概要: CTkvr: KV Cache Retrieval for Long-Context LLMs via Centroid then Token Indexing
- arxiv url: http://arxiv.org/abs/2512.15550v1
- Date: Wed, 17 Dec 2025 15:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.050462
- Title: CTkvr: KV Cache Retrieval for Long-Context LLMs via Centroid then Token Indexing
- Title(参考訳): CTkvr: CentroidとToken IndexingによるLong-Context LLMのためのKVキャッシュ検索
- Authors: Kuan Lu, Shuhang Lin, Sai Wu, Yichen Yao, Junhan Yang, Huan Li, Wei Chu, Xu Yinghui, Yuan Qi, Gang Chen,
- Abstract要約: 長いコンテキストは、大きな言語モデルにおいて推論効率に重大な課題をもたらす。
我々は,新しい遠心分離型KV検索方式であるCTKVRを提案する。
CTKVRは、1%未満の精度で、複数のベンチマークで優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 28.184704036272787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly applied in long-context scenarios such as multi-turn conversations. However, long contexts pose significant challenges for inference efficiency, including high memory overhead from Key-Value (KV) cache and increased latency due to excessive memory accesses. Recent methods for dynamic KV selection struggle with trade-offs: block-level indexing degrades accuracy by retrieving irrelevant KV entries, while token-level indexing incurs high latency from inefficient retrieval mechanisms. In this paper, we propose CTKVR, a novel centroid-then-token KV retrieval scheme that addresses these limitations. CTKVR leverages a key observation: query vectors adjacent in position exhibit high similarity after Rotary Position Embedding (RoPE) and share most of their top-k KV cache entries. Based on this insight, CTKVR employs a two-stage retrieval strategy: lightweight centroids are precomputed during prefilling for centroid-grained indexing, followed by token-level refinement for precise KV retrieval. This approach balances retrieval efficiency and accuracy. To further enhance performance, we implement an optimized system for indexing construction and search using CPU-GPU co-execution. Experimentally, CTKVR achieves superior performance across multiple benchmarks with less than 1% accuracy degradation. Meanwhile, CTKVR delivers 3 times and 4 times throughput speedups on Llama-3-8B and Yi-9B at 96K context length across diverse GPU hardware.
- Abstract(参考訳): 大規模言語モデル(LLM)は、マルチターン会話のような長期コンテキストのシナリオにますます適用されている。
しかしながら、キーバリュー(KV)キャッシュからの高いメモリオーバーヘッドや、過剰なメモリアクセスによる遅延の増加など、推論効率に大きな課題が生じる。
ブロックレベルのインデクシングは、無関係なKVエントリを検索することで精度を低下させ、トークンレベルのインデクシングは非効率な検索機構から高い遅延を生じる。
本稿では,これらの制約に対処する新しい遠心分離型KV検索方式であるCTKVRを提案する。
CTKVRは、キーとなる観察を利用する: 位置に隣接するクエリベクトルは、ロータリー位置埋め込み(RoPE)の後、高い類似性を示し、トップkのKVキャッシュエントリの大部分を共有している。
この知見に基づいて、CTKVRは2段階の検索戦略を採用している。
このアプローチは、検索効率と精度のバランスをとる。
性能をさらに向上するため,CPU-GPUコエグゼクティブを用いた構築と検索をインデックス化するための最適化システムを実装した。
実験的に、CTKVRは1%以下の精度で複数のベンチマークで優れた性能を達成している。
一方、CTKVRはLlama-3-8BとYi-9Bで、さまざまなGPUハードウェアで96Kのコンテキスト長で3倍、4倍のスループットのスピードアップを提供する。
関連論文リスト
- LouisKV: Efficient KV Cache Retrieval for Long Input-Output Sequences [12.093166735658626]
キーバリュー(KV)キャッシュは、自動回帰モデルにおける冗長な計算の削減に成功している。
メモリオーバーヘッドが大幅に増加し、長時間のシナリオでの実際のデプロイメントが制限される。
既存のKV検索手法は,ページ単位の検索やページ単位の粗いKV管理によって,顕著な効率性と精度のボトルネックに悩まされている。
論文 参考訳(メタデータ) (2025-10-13T11:28:30Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。