論文の概要: Sangam: Chiplet-Based DRAM-PIM Accelerator with CXL Integration for LLM Inferencing
- arxiv url: http://arxiv.org/abs/2511.12286v1
- Date: Sat, 15 Nov 2025 16:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.802299
- Title: Sangam: Chiplet-Based DRAM-PIM Accelerator with CXL Integration for LLM Inferencing
- Title(参考訳): Sangam: LLM推論のためのCXL統合によるチップレットベースのDRAM-PIM加速器
- Authors: Khyati Kiyawat, Zhenxing Fan, Yasas Seneviratne, Morteza Baradaran, Akhil Shekar, Zihan Xia, Mingu Kang, Kevin Skadron,
- Abstract要約: 推論、特にデコードフェーズは、メモリバウンドGEMVまたはフラットGEMM操作によって支配される。
既存のインメモリソリューションは、メモリ容量の削減などの限界に直面している。
この作業は、これらの制限に対処するチップレットベースのメモリモジュールを提供する。
- 参考スコア(独自算出の注目度): 2.9665163298601342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are becoming increasingly data-intensive due to growing model sizes, and they are becoming memory-bound as the context length and, consequently, the key-value (KV) cache size increase. Inference, particularly the decoding phase, is dominated by memory-bound GEMV or flat GEMM operations with low operational intensity (OI), making it well-suited for processing-in-memory (PIM) approaches. However, existing in/near-memory solutions face critical limitations such as reduced memory capacity due to the high area cost of integrating processing elements (PEs) within DRAM chips, and limited PE capability due to the constraints of DRAM fabrication technology. This work presents a chiplet-based memory module that addresses these limitations by decoupling logic and memory into chiplets fabricated in heterogeneous technology nodes and connected via an interposer. The logic chiplets sustain high bandwidth access to the DRAM chiplets, which house the memory banks, and enable the integration of advanced processing components such as systolic arrays and SRAM-based buffers to accelerate memory-bound GEMM kernels, capabilities that were not feasible in prior PIM architectures. We propose Sangam, a CXL-attached PIM-chiplet based memory module that can either act as a drop-in replacement for GPUs or co-executes along side the GPUs. Sangam achieves speedup of 3.93, 4.22, 2.82x speedup in end-to-end query latency, 10.3, 9.5, 6.36x greater decoding throughput, and order of magnitude energy savings compared to an H100 GPU for varying input size, output length, and batch size on LLaMA 2-7B, Mistral-7B, and LLaMA 3-70B, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、モデルサイズの増加によりデータ集約化が進み、コンテキスト長としてメモリバウンドになり、結果としてキー値(KV)キャッシュサイズが増加する。
推論、特にデコーディングフェーズは、メモリバウンドGEMVまたは低演算強度(OI)のフラットGEMM操作によって支配され、PIM(Process-in-Memory)アプローチに適している。
しかし、既存のインメモリソリューションでは、DRAMチップに処理要素(PE)を統合するための高コストなメモリ容量の削減や、DRAM製造技術の制約によるPE能力の制限など、限界に直面している。
この研究は、論理とメモリを異種技術ノードで製造され、インターポーザを介して接続されるチップレットに分離することで、これらの制限に対処するチップレットベースのメモリモジュールを示す。
論理チップレットは、メモリバンクを格納するDRAMチップレットへの高帯域幅アクセスを保持し、シストリックアレイやSRAMベースのバッファなどの高度な処理コンポーネントを統合して、メモリバウンドGEMMカーネルを高速化する。
我々は、CXL対応のPIMチップベースのメモリモジュールであるSangamを提案する。
Sangamは、エンドツーエンドのクエリ待ち時間における3.93, 4.22, 2.82倍のスピードアップ、10.3, 9.5, 6.36倍のデコードスループット、およびLLaMA 2-7B、Mistral-7B、LLaMA 3-70Bでそれぞれ入力サイズ、出力長、バッチサイズを変化させるH100 GPUと比較して、等級の省エネを達成している。
関連論文リスト
- MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference [6.886434948681708]
大きな言語モデル(LLM)では、長いテキストシーケンスの処理がますます必要になるが、GPUメモリの制限により、メモリ容量と帯域幅のトレードオフが困難になる。
重要なメモリボトルネックは、マルチヘッドアテンションの復号フェーズにある。
本稿では,DIMM-PIMとGPUデバイスを統合したハードウェア・ソフトウェア共同設計システムであるL3を提案する。
論文 参考訳(メタデータ) (2025-04-24T14:14:07Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - ProactivePIM: Accelerating Weight-Sharing Embedding Layer with PIM for Scalable Recommendation System [16.2798383044926]
サイズ削減のために重み共有アルゴリズムが提案されているが、メモリアクセスが増加する。
最近のPIM(Processing-in-Memory)の進歩は、メモリ並列性を利用してモデルのスループットを向上した。
重量共有レコメンデーションシステムアクセラレーションのためのPIMシステムであるProactivePIMを提案する。
論文 参考訳(メタデータ) (2024-02-06T14:26:22Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。