論文の概要: Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache Management
- arxiv url: http://arxiv.org/abs/2511.20172v2
- Date: Thu, 27 Nov 2025 06:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.795529
- Title: Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache Management
- Title(参考訳): Beluga: スケーラブルで効率的なLLM KVキャッシュ管理のためのCXLベースのメモリアーキテクチャ
- Authors: Xinjun Yang, Qingda Hu, Junru Li, Feifei Li, Yicong Zhu, Yuqi Zhou, Qiuru Lin, Jian Dai, Yang Kong, Jiayu Zhang, Guoqiang Xu, Qiang Liu,
- Abstract要約: 我々は、GPUとCPUがCXLスイッチを介して共有された大規模メモリプールにアクセスできるようにする新しいメモリアーキテクチャであるBelugaを提案する。
CXLファブリック上でネイティブなロード/ストアアクセスセマンティクスをサポートすることで、我々の設計はローカルに近いメモリ遅延を提供する。
Belugaをベースとして,大規模KVCacheを推論で管理するシステムであるBeluga-KVCacheの設計と実装を行う。
- 参考スコア(独自算出の注目度): 22.257557760472906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid increase in LLM model sizes and the growing demand for long-context inference have made memory a critical bottleneck in GPU-accelerated serving systems. Although high-bandwidth memory (HBM) on GPUs offers fast access, its limited capacity necessitates reliance on host memory (CPU DRAM) to support larger working sets such as the KVCache. However, the maximum DRAM capacity is constrained by the limited number of memory channels per CPU socket. To overcome this limitation, current systems often adopt RDMA-based disaggregated memory pools, which introduce significant challenges including high access latency, complex communication protocols, and synchronization overhead. Fortunately, the emerging CXL technology introduces new opportunities in KVCache design. In this paper, we propose Beluga, a novel memory architecture that enables GPUs and CPUs to access a shared, large-scale memory pool through CXL switches. By supporting native load/store access semantics over the CXL fabric, our design delivers near-local memory latency, while reducing programming complexity and minimizing synchronization overhead. We conduct a systematic characterization of a commercial CXL switch-based memory pool and propose a set of design guidelines. Based on Beluga, we design and implement Beluga-KVCache, a system tailored for managing the large-scale KVCache in LLM inference. Beluga-KVCache achieves an 89.6% reduction in Time-To-First-Token (TTFT) and 7.35x throughput improvement in the vLLM inference engine compared to RDMA-based solutions. To the best of our knowledge, Beluga is the first system that enables GPUs to directly access large-scale memory pools through CXL switches, marking a significant step toward low-latency, shared access to vast memory resources by GPUs.
- Abstract(参考訳): LLMモデルのサイズが急速に増加し、長期コンテキスト推論の需要が増加したことにより、メモリはGPUアクセラレーションされたサービスシステムにおいて重要なボトルネックとなった。
GPU上のハイバンド幅メモリ(HBM)は高速アクセスを提供するが、KVCacheのようなより大きなワーキングセットをサポートするには、ホストメモリ(CPU DRAM)に依存しなければならない。
しかし、最大DRAM容量はCPUソケット当たりのメモリチャネル数の制限によって制限される。
この制限を克服するため、現在のシステムはRDMAベースの分散メモリプールを採用することが多く、高いアクセスレイテンシ、複雑な通信プロトコル、同期オーバーヘッドといった大きな課題が発生する。
幸いなことに、新しいCXL技術はKVCache設計に新たな機会をもたらす。
本稿では,GPUとCPUがCXLスイッチを介して共有された大規模メモリプールにアクセスできる新しいメモリアーキテクチャであるBelugaを提案する。
CXLファブリック上でネイティブなロード/ストアアクセスセマンティクスをサポートすることで,プログラムの複雑さを低減し,同期オーバーヘッドを最小限に抑えながら,ローカルに近いメモリ遅延を実現する。
商用CXLスイッチベースのメモリプールのシステマティックな評価を行い,設計ガイドラインを提案する。
本研究では,LLM推論における大規模KVCacheの管理に適したシステムであるBeluga-KVCacheの設計と実装を行う。
Beluga-KVCacheは、RDMAベースのソリューションと比較して、TTFT(Time-To-First-Token)の89.6%削減とvLLM推論エンジンの7.35倍のスループット向上を実現している。
私たちの知る限りでは、BelugaはGPUがCXLスイッチを通じて大規模なメモリプールに直接アクセスできるようにする最初のシステムである。
関連論文リスト
- CLO: Efficient LLM Inference System with CPU-Light KVCache Offloading via Algorithm-System Co-Design [27.03446161229998]
アルゴリズム・システム共同設計によるCPUライトKVCacheオフロードシステムであるCLOを提案する。
CLOは最先端システムと同等の精度を実現し、CPUオーバーヘッドを大幅に最小化する。
論文 参考訳(メタデータ) (2025-11-18T14:03:21Z) - Sangam: Chiplet-Based DRAM-PIM Accelerator with CXL Integration for LLM Inferencing [2.9665163298601342]
推論、特にデコードフェーズは、メモリバウンドGEMVまたはフラットGEMM操作によって支配される。
既存のインメモリソリューションは、メモリ容量の削減などの限界に直面している。
この作業は、これらの制限に対処するチップレットベースのメモリモジュールを提供する。
論文 参考訳(メタデータ) (2025-11-15T16:39:51Z) - LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。
人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。
GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文 参考訳(メタデータ) (2025-10-21T17:58:17Z) - Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System [20.652641518700346]
大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。
現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。
本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
論文 参考訳(メタデータ) (2025-08-17T19:07:08Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。