論文の概要: ShadowServe: Interference-Free KV Cache Fetching for Distributed Prefix Caching
- arxiv url: http://arxiv.org/abs/2509.16857v1
- Date: Sun, 21 Sep 2025 00:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.006268
- Title: ShadowServe: Interference-Free KV Cache Fetching for Distributed Prefix Caching
- Title(参考訳): ShadowServe:分散プリフィックスキャッシュのための干渉のないKVキャッシュフェッチ
- Authors: Xingyu Xiang, Raj Joshi, Yuhan Liu, Jiayi Yao, Chenxingyu Zhao, Junchen Jiang, Yang Zhou, Eddie Kohler, Minlan Yu,
- Abstract要約: ネットワーク帯域幅が制限された場合、KVキャッシュフェッチはボトルネックになる可能性がある。
圧縮は帯域幅の問題を軽減するが、圧縮がモデル計算に干渉すると全体的な性能が低下する。
LLMサービスのための最初のSmartNICアクセラレーションで干渉のないプレフィックスキャッシュシステムであるShadowServeを提案する。
- 参考スコア(独自算出の注目度): 25.988291854692466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed prefix caching accelerates long-context LLM serving by reusing KV cache entries for common context prefixes. However, KV cache fetches can become a bottleneck when network bandwidth is limited. Compression mitigates the bandwidth issue, but can degrade overall performance when decompression interferes with model computation. We present ShadowServe, the first SmartNIC-accelerated, interference-free prefix caching system for LLM serving. ShadowServe separates a control plane on the host and a data plane fully offloaded to the SmartNIC, which eliminates interference to both host GPU and CPU. To overcome the SmartNIC's limited compute and memory resources, we design a chunked pipeline that parallelizes data plane operations across the SmartNIC's compute resources, and a minimal-copy memory management scheme that reduces memory pressure on the SmartNIC. Compared to state-of-the-art solutions, ShadowServe achieves up to 2.2x lower loaded time-per-output-token (TPOT), and reduces time-to-first-token (TTFT) by up to 1.38x in low-bandwidth scenarios (<= 20 Gbps), translating to up to 1.35x higher throughput.
- Abstract(参考訳): 分散プレフィックスキャッシュは、共通のコンテキストプレフィックスに対してKVキャッシュエントリを再利用することで、長いコンテキストLLM機能を加速する。
しかし、ネットワーク帯域幅が制限された場合、KVキャッシュフェッチはボトルネックとなる可能性がある。
圧縮は帯域幅の問題を軽減するが、圧縮がモデル計算に干渉すると全体的な性能が低下する。
LLMサービスのための最初のSmartNICアクセラレーションで干渉のないプレフィックスキャッシュシステムであるShadowServeを提案する。
ShadowServeはホスト上のコントロールプレーンとSmartNICに完全にオフロードされたデータプレーンを分離する。
SmartNICの限られた計算リソースとメモリリソースを克服するために、SmartNICの計算リソースをまたいだデータプレーン操作を並列化するチャンクパイプラインと、SmartNICのメモリ圧力を低減する最小のコピーメモリ管理スキームを設計する。
最先端のソリューションと比較して、ShadowServeは最大2.2倍のロードタイム・パー・アウトプット・トケン(TPOT)を実現し、低帯域幅のシナリオ(=20Gbps)で最大1.38倍のタイム・ツー・ファースト・トケン(TTFT)を削減し、最大1.35倍のスループットに変換する。
関連論文リスト
- TinyServe: Query-Aware Cache Selection for Efficient LLM Serving [5.216774377033164]
本稿では,大規模言語モデル(LLM)を効率的に提供するためのTinyServeを提案する。
TinyServeは、スポーシティ戦略ときめ細かいインスツルメンテーションでリアルタイムデコーディングを実行する。
我々の実験では、TinyServeがtextbf3.4x の高速化と textbf2x のメモリ節約を無視できる精度の低下で実現している。
論文 参考訳(メタデータ) (2025-08-28T16:17:18Z) - TokenLake: A Unified Segment-level Prefix Cache Pool for Fine-grained Elastic Long-Context LLM Serving [12.80179556886128]
セグメントレベルのプレフィックス・キャッシュ・プールであるTokenLakeを提案する。
キャッシュインターフェースを使用して、リクエストのクエリテンソル、プレフィックス、キャッシュ対応操作を公開します。
TokenLakeはスループットを最大2.6$times$と2.0$times$に改善し、ヒット率を2.0$times$と2.1$times$に向上させることができる。
論文 参考訳(メタデータ) (2025-08-24T05:45:16Z) - Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System [20.652641518700346]
大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。
現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。
本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
論文 参考訳(メタデータ) (2025-08-17T19:07:08Z) - XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization [58.92253769255316]
LLM推論はメモリフットプリントと帯域幅の要求のために困難である。
XQuantは、ハードウェアプラットフォームの急速に増加する計算能力を利用して、メモリボトルネックを取り除く。
XQuant-CLは、極端な圧縮のためにX埋め込みの層間類似性を利用する。
論文 参考訳(メタデータ) (2025-08-14T06:52:38Z) - Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching [12.993197799897532]
大規模言語モデル(LLM)は、高帯域メモリ(HBM)帯域幅の制約により、推論中に顕著なメモリバウンド特性を示す。
本稿では,L2キャッシュ指向の非同期KVキャッシュプリフェッチ手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T09:17:35Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。