論文の概要: Scalable Processing-Near-Memory for 1M-Token LLM Inference: CXL-Enabled KV-Cache Management Beyond GPU Limits
- arxiv url: http://arxiv.org/abs/2511.00321v1
- Date: Fri, 31 Oct 2025 23:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.71549
- Title: Scalable Processing-Near-Memory for 1M-Token LLM Inference: CXL-Enabled KV-Cache Management Beyond GPU Limits
- Title(参考訳): 100MToken LLM推論のためのスケーラブル処理-Near-Memory: CXL-Enabled KV-Cache Management over GPU Limits
- Authors: Dowon Kim, MinJae Lee, Janghyeon Kim, HyuckSung Kwon, Hyeonggyu Jeong, Sang-Soo Park, Minyong Yoon, Si-Dong Roh, Yongsuk Kwon, Jinin So, Jungwook Choi,
- Abstract要約: 本研究は,1M-Token LLM推論のためのスケーラブル処理-Near-Memory(PNM)を提案する。
我々のソリューションは最大405Bのパラメータと1Mのコンテキストを持つLLMに対して一貫した性能向上を提供する。
- 参考スコア(独自算出の注目度): 6.833710057939837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The expansion of context windows in large language models (LLMs) to multi-million tokens introduces severe memory and compute bottlenecks, particularly in managing the growing Key-Value (KV) cache. While Compute Express Link (CXL) enables non-eviction frameworks that offload the full KV-cache to scalable external memory, these frameworks still suffer from costly data transfers when recalling non-resident KV tokens to limited GPU memory as context lengths increase. This work proposes scalable Processing-Near-Memory (PNM) for 1M-Token LLM Inference, a CXL-enabled KV-cache management system that coordinates memory and computation beyond GPU limits. Our design offloads token page selection to a PNM accelerator within CXL memory, eliminating costly recalls and enabling larger GPU batch sizes. We further introduce a hybrid parallelization strategy and a steady-token selection mechanism to enhance compute efficiency and scalability. Implemented atop a state-of-the-art CXL-PNM system, our solution delivers consistent performance gains for LLMs with up to 405B parameters and 1M-token contexts. Our PNM-only offloading scheme (PNM-KV) and GPU-PNM hybrid with steady-token execution (PnG-KV) achieve up to 21.9x throughput improvement, up to 60x lower energy per token, and up to 7.3x better total cost efficiency than the baseline, demonstrating that CXL-enabled multi-PNM architectures can serve as a scalable backbone for future long-context LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)から数百万のトークンへのコンテキストウィンドウの拡張は、特に増大するキーバリュー(KV)キャッシュの管理において、深刻なメモリと計算のボトルネックをもたらす。
Compute Express Link(CXL)は、完全なKVキャッシュを拡張性のある外部メモリにオフロードするノンエビクションフレームワークを可能にするが、コンテキスト長が増加するにつれて、非レジデントなKVトークンをリコールする場合、これらのフレームワークはコストのかかるデータ転送に悩まされる。
この研究は、1M-Token LLM推論のためのスケーラブルなプロセッシング・ナアー・メモリ(PNM)を提案する。
我々の設計ではトークンページの選択をCXLメモリ内のPNMアクセラレータにオフロードし、コストのかかるリコールを排除し、GPUバッチサイズを大きくする。
さらに、計算効率とスケーラビリティを向上させるために、ハイブリッド並列化戦略と定常的な選択機構を導入する。
我々のソリューションは最先端のCXL-PNMシステム上に実装され、最大405Bのパラメータと1Mのコンテキストを持つLLMに対して一貫した性能向上を提供する。
我々のPNMオンリーオフローディングスキーム(PNM-KV)とGPU-PNMハイブリット(PnG-KV)は、21.9倍のスループット向上、トークン当たりの60倍のエネルギー、ベースラインよりも7.3倍のコスト効率を実現し、CXL対応マルチPNMアーキテクチャが将来の長期LLM推論のスケーラブルなバックボーンとして機能することを実証した。
関連論文リスト
- XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization [58.92253769255316]
LLM推論はメモリフットプリントと帯域幅の要求のために困難である。
XQuantは、ハードウェアプラットフォームの急速に増加する計算能力を利用して、メモリボトルネックを取り除く。
XQuant-CLは、極端な圧縮のためにX埋め込みの層間類似性を利用する。
論文 参考訳(メタデータ) (2025-08-14T06:52:38Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。
プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。
現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文 参考訳(メタデータ) (2025-05-09T04:17:05Z) - ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [15.76582272387931]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads on Consumer-Grade Devices [30.690302709678758]
Locretは、チャンクされたプリフィルと互換性のある退行ポリシーを作成するための最初のフレームワークである。
Locretは最大20倍のKVキャッシュ圧縮比を10%未満の性能損失で達成できることを示す。
また、Locretは1つのNVIDIA 4090 GPU上で128K以上の長コンテキスト推論を、生成品質を損なうことなく達成していることを示す。
論文 参考訳(メタデータ) (2024-10-02T17:59:52Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。