論文の概要: KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2605.18071v1
- Date: Mon, 18 May 2026 08:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.202838
- Title: KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference
- Title(参考訳): KVDrive:長期LLM推論のためのホロスティックマルチティアKVキャッシュ管理システム
- Authors: Jian Lin, Jiazhi Mi, Zicong Hong, Haodong Wang, Qianli Liu, Haodyue Zhang, Peng Li, Song Guo,
- Abstract要約: 我々は、GPUメモリ、ホストDRAM、SSDにまたがる総合的なマルチ層KVキャッシュ管理システムであるKVDriveを紹介する。
KVDriveは、キャッシュ配置、パイプラインスケジューリング、階層間の調整を共同でオーケストレーションするシステムの観点から、この問題に取り組む。
このシステムは精度を保ちながら最先端の作業に比べて最大1.74倍のスループットを実現している。
- 参考スコア(独自算出の注目度): 23.683284557561112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supporting long-context LLMs is challenging due to the substantial memory demands of the key-value (KV) cache. Existing offloading systems store the full cache in host memory and selectively fetch critical entries during decoding, but this strategy quickly hits a ceiling: sparsity cannot be pushed further without degrading accuracy. As a result, when context length and batch size grow, the volume of KV transfers rises sharply and becomes the dominant source of decoding latency. We present KVDrive, a holistic multi-tier KV cache management system spanning GPU memory, host DRAM, and SSD. Unlike prior work that pursues greater sparsity through algorithmic refinements, KVDrive tackles the problem from a systems perspective - jointly orchestrating cache placement, pipeline scheduling, and cross-tier coordination to sustain high-throughput inference under tight GPU budgets. KVDrive advances three fundamental capabilities: it adapts cache management to attention behavior to maximize reuse and minimize redundant data movement; it restructures the decoding pipeline to overlap I/O- and CPU/GPU compute-bound stages, eliminating stalls across heterogeneous resources; and it harmonizes data movement across memory tiers to unlock scalable long-context inference far beyond GPU and DRAM limits. We have implemented a fully functional prototype of KVDrive and evaluated it on long-context benchmarks with popular LLMs. The system achieves up to 1.74x higher throughput compared to state-of-the-art works while preserving accuracy.
- Abstract(参考訳): キー値(KV)キャッシュのメモリ要求がかなり大きいため、長文LLMのサポートは困難である。
既存のオフロードシステムは、フルキャッシュをホストメモリに格納し、デコード中に重要なエントリを選択的にフェッチするが、この戦略はすぐに天井に達する。
その結果、コンテキスト長とバッチサイズが大きくなると、KV転送のボリュームが急激に増加し、復号遅延の主要な原因となる。
我々は、GPUメモリ、ホストDRAM、SSDにまたがる総合的なマルチ層KVキャッシュ管理システムであるKVDriveを紹介する。
KVDriveは、アルゴリズムの精細化によってより大きな疎性を求める以前の作業とは異なり、システムの観点から、キャッシュ配置、パイプラインスケジューリング、階層間調整を共同でオーケストレーションすることで、GPU予算の厳しい高スループット推論を維持するという課題に対処する。
KVDriveは、再利用の最大化と冗長なデータ移動の最小化のためにキャッシュ管理に適応し、デコードパイプラインを再構築してI/OとCPU/GPU計算バウンドステージを重複させ、異種リソース間のストールを排除し、メモリ層間のデータ移動を調和させて、GPUやDRAMの限界を超えてスケーラブルなロングコンテキスト推論をアンロックする。
我々は、KVDriveの完全機能プロトタイプを実装し、人気のあるLLMを用いた長文ベンチマークで評価した。
このシステムは精度を保ちながら最先端の作業に比べて最大1.74倍のスループットを実現している。
関連論文リスト
- Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving [18.681651346752766]
動的スパースアテンションは、デコーディングステップ毎にKV状態の小さなクエリ依存サブセットだけにアクセスすることで緩和を約束する。
しかし実際には、これらのアルゴリズムによる貯蓄は、エンドツーエンドのシステムレベルのゲインにはほとんど変換されない。
本稿では,階層的なKVストレージで実行パイプラインを協調設計するスパースアテンション対応推論フレームワークSPINを提案する。
論文 参考訳(メタデータ) (2026-04-29T16:02:00Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving [5.216774377033164]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。
我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
論文 参考訳(メタデータ) (2025-12-11T15:40:36Z) - DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones [10.813495376006427]
大規模言語モデル(LLM)は、効率的で効果的な長シーケンスデコードをサポートすることがますます期待されている。
DRAM容量が限られているため、スマートフォン上でのLLM復号化はキー値キャッシュ(KVCache)によって制限される。
我々はDynaKVを提案する。DynaKVはスマートフォン上での長時間デコードにおける精度と効率を両立させる最初の適応KVキャッシュ管理手法である。
論文 参考訳(メタデータ) (2025-10-20T08:56:02Z) - Breaking the Boundaries of Long-Context LLM Inference: Adaptive KV Management on a Single Commodity GPU [23.168435940997664]
本稿では,1つのコモディティGPUのためのLLM推論システムLeoAMについて述べる。
我々のシステムは,KVデータを可変サイズのチャンクに分割する適応的なKV管理戦略を採用している。
また,全KVデータではなく,ディスク上の各チャンクのKV抽象を格納・抽出することで,伝送遅延を最小限に抑える軽量なKV抽象手法を提案する。
論文 参考訳(メタデータ) (2025-06-25T07:26:42Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。