論文の概要: CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving
- arxiv url: http://arxiv.org/abs/2512.11920v1
- Date: Thu, 11 Dec 2025 15:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.022903
- Title: CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving
- Title(参考訳): CXL-SpecKV:データセンター向けFPGA投機KVキャッシュ
- Authors: Dong Liu, Yanxuan Yu,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。
我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
- 参考スコア(独自算出の注目度): 5.216774377033164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have revolutionized natural language processing tasks, but their deployment in datacenter environments faces significant challenges due to the massive memory requirements of key-value (KV) caches. During the autoregressive decoding process, KV caches consume substantial GPU memory, limiting batch sizes and overall system throughput. To address these challenges, we propose \textbf{CXL-SpecKV}, a novel disaggregated KV-cache architecture that leverages Compute Express Link (CXL) interconnects and FPGA accelerators to enable efficient speculative execution and memory disaggregation. Our approach introduces three key innovations: (i) a CXL-based memory disaggregation framework that offloads KV-caches to remote FPGA memory with low latency, (ii) a speculative KV-cache prefetching mechanism that predicts and preloads future tokens' cache entries, and (iii) an FPGA-accelerated KV-cache compression and decompression engine that reduces memory bandwidth requirements by up to 4$\times$. When evaluated on state-of-the-art LLM models, CXL-SpecKV achieves up to 3.2$\times$ higher throughput compared to GPU-only baselines, while reducing memory costs by 2.8$\times$ and maintaining accuracy. Our system demonstrates that intelligent memory disaggregation combined with speculative execution can effectively address the memory wall challenge in large-scale LLM serving. Our code implementation has been open-sourced at https://github.com/FastLM/CXL-SpecKV.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらしたが、キーバリュー(KV)キャッシュの大規模なメモリ要求のため、データセンタ環境への展開は大きな課題に直面している。
自動回帰復号処理では、KVキャッシュはGPUメモリを消費し、バッチサイズやシステム全体のスループットを制限している。
これらの課題に対処するために,Compute Express Link(CXL)相互接続とFPGAアクセラレータを活用して,効率的な投機的実行とメモリ分散を実現する,新しい分散KV-cacheアーキテクチャである \textbf{CXL-SpecKV} を提案する。
私たちのアプローチには3つの重要なイノベーションがあります。
(i)KVキャッシュを低レイテンシでリモートFPGAメモリにオフロードするCXLベースのメモリデアグリゲーションフレームワーク。
(ii)将来のトークンのキャッシュエントリを予測およびプリロードする投機的KV-cacheプリフェッチ機構
(iii)FPGAで高速化されたKV-cache圧縮および圧縮エンジンにより、メモリ帯域幅の要求を最大4$\times$に削減する。
最先端のLCMモデルで評価すると、CXL-SpecKVはGPUのみのベースラインに比べて最大3.2$\times$高いスループットを実現し、メモリコストを2.8$\times$に削減し、精度を維持する。
提案システムは,知的メモリ分散と投機的実行を組み合わせることで,大規模LCMサービスにおけるメモリウォールの課題に効果的に対処できることを実証する。
コード実装はhttps://github.com/FastLM/CXL-SpecKVでオープンソース化されました。
関連論文リスト
- Scalable Processing-Near-Memory for 1M-Token LLM Inference: CXL-Enabled KV-Cache Management Beyond GPU Limits [6.833710057939837]
本研究は,1M-Token LLM推論のためのスケーラブル処理-Near-Memory(PNM)を提案する。
我々のソリューションは最大405Bのパラメータと1Mのコンテキストを持つLLMに対して一貫した性能向上を提供する。
論文 参考訳(メタデータ) (2025-10-31T23:50:44Z) - XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。
超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:17:21Z) - TinyServe: Query-Aware Cache Selection for Efficient LLM Serving [5.216774377033164]
本稿では,大規模言語モデル(LLM)を効率的に提供するためのTinyServeを提案する。
TinyServeは、スポーシティ戦略ときめ細かいインスツルメンテーションでリアルタイムデコーディングを実行する。
我々の実験では、TinyServeがtextbf3.4x の高速化と textbf2x のメモリ節約を無視できる精度の低下で実現している。
論文 参考訳(メタデータ) (2025-08-28T16:17:18Z) - Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System [20.652641518700346]
大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。
現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。
本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
論文 参考訳(メタデータ) (2025-08-17T19:07:08Z) - XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization [58.92253769255316]
LLM推論はメモリフットプリントと帯域幅の要求のために困難である。
XQuantは、ハードウェアプラットフォームの急速に増加する計算能力を利用して、メモリボトルネックを取り除く。
XQuant-CLは、極端な圧縮のためにX埋め込みの層間類似性を利用する。
論文 参考訳(メタデータ) (2025-08-14T06:52:38Z) - ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [15.76582272387931]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。