論文の概要: Sangam: Chiplet-Based DRAM-PIM Accelerator with CXL Integration for LLM Inferencing
- arxiv url: http://arxiv.org/abs/2511.12286v1
- Date: Sat, 15 Nov 2025 16:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.802299
- Title: Sangam: Chiplet-Based DRAM-PIM Accelerator with CXL Integration for LLM Inferencing
- Title(参考訳): Sangam: LLM推論のためのCXL統合によるチップレットベースのDRAM-PIM加速器
- Authors: Khyati Kiyawat, Zhenxing Fan, Yasas Seneviratne, Morteza Baradaran, Akhil Shekar, Zihan Xia, Mingu Kang, Kevin Skadron,
- Abstract要約: 推論、特にデコードフェーズは、メモリバウンドGEMVまたはフラットGEMM操作によって支配される。
既存のインメモリソリューションは、メモリ容量の削減などの限界に直面している。
この作業は、これらの制限に対処するチップレットベースのメモリモジュールを提供する。
- 参考スコア(独自算出の注目度): 2.9665163298601342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are becoming increasingly data-intensive due to growing model sizes, and they are becoming memory-bound as the context length and, consequently, the key-value (KV) cache size increase. Inference, particularly the decoding phase, is dominated by memory-bound GEMV or flat GEMM operations with low operational intensity (OI), making it well-suited for processing-in-memory (PIM) approaches. However, existing in/near-memory solutions face critical limitations such as reduced memory capacity due to the high area cost of integrating processing elements (PEs) within DRAM chips, and limited PE capability due to the constraints of DRAM fabrication technology. This work presents a chiplet-based memory module that addresses these limitations by decoupling logic and memory into chiplets fabricated in heterogeneous technology nodes and connected via an interposer. The logic chiplets sustain high bandwidth access to the DRAM chiplets, which house the memory banks, and enable the integration of advanced processing components such as systolic arrays and SRAM-based buffers to accelerate memory-bound GEMM kernels, capabilities that were not feasible in prior PIM architectures. We propose Sangam, a CXL-attached PIM-chiplet based memory module that can either act as a drop-in replacement for GPUs or co-executes along side the GPUs. Sangam achieves speedup of 3.93, 4.22, 2.82x speedup in end-to-end query latency, 10.3, 9.5, 6.36x greater decoding throughput, and order of magnitude energy savings compared to an H100 GPU for varying input size, output length, and batch size on LLaMA 2-7B, Mistral-7B, and LLaMA 3-70B, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、モデルサイズの増加によりデータ集約化が進み、コンテキスト長としてメモリバウンドになり、結果としてキー値(KV)キャッシュサイズが増加する。
推論、特にデコーディングフェーズは、メモリバウンドGEMVまたは低演算強度(OI)のフラットGEMM操作によって支配され、PIM(Process-in-Memory)アプローチに適している。
しかし、既存のインメモリソリューションでは、DRAMチップに処理要素(PE)を統合するための高コストなメモリ容量の削減や、DRAM製造技術の制約によるPE能力の制限など、限界に直面している。
この研究は、論理とメモリを異種技術ノードで製造され、インターポーザを介して接続されるチップレットに分離することで、これらの制限に対処するチップレットベースのメモリモジュールを示す。
論理チップレットは、メモリバンクを格納するDRAMチップレットへの高帯域幅アクセスを保持し、シストリックアレイやSRAMベースのバッファなどの高度な処理コンポーネントを統合して、メモリバウンドGEMMカーネルを高速化する。
我々は、CXL対応のPIMチップベースのメモリモジュールであるSangamを提案する。
Sangamは、エンドツーエンドのクエリ待ち時間における3.93, 4.22, 2.82倍のスピードアップ、10.3, 9.5, 6.36倍のデコードスループット、およびLLaMA 2-7B、Mistral-7B、LLaMA 3-70Bでそれぞれ入力サイズ、出力長、バッチサイズを変化させるH100 GPUと比較して、等級の省エネを達成している。
関連論文リスト
- DRAMatic Speedup: Accelerating HE Operations on a Processing-in-Memory System [4.464102544889846]
ホモモルフィック暗号化(HE)は、機密クラウドコンピューティングのための有望な技術である。
プロセッサ・イン・メモリ(Processing-in-Memory、PIM)は、プロセッサユニットとメモリを同じチップまたはメモリモジュールに統合する代替のハードウェアアーキテクチャである。
UPMEMのプログラム可能な汎用PIMシステム上で,HEの基本となる操作を実装したDRAMaticを提案する。
論文 参考訳(メタデータ) (2026-02-12T21:45:15Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - CHIME: Chiplet-based Heterogeneous Near-Memory Acceleration for Edge Multimodal LLM Inference [19.989162649002274]
エッジMLLM推論のためのチップレットベースの異種ニアメモリ高速化であるCHIMEを提案する。
FastVLM (0.6B/1.7B) とMobileVLM (1.7B/3B) では、CHIMEは54倍のスピードアップと最大246倍のエネルギー効率を達成する。
論文 参考訳(メタデータ) (2025-12-12T03:59:36Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference [6.886434948681708]
大きな言語モデル(LLM)では、長いテキストシーケンスの処理がますます必要になるが、GPUメモリの制限により、メモリ容量と帯域幅のトレードオフが困難になる。
重要なメモリボトルネックは、マルチヘッドアテンションの復号フェーズにある。
本稿では,DIMM-PIMとGPUデバイスを統合したハードウェア・ソフトウェア共同設計システムであるL3を提案する。
論文 参考訳(メタデータ) (2025-04-24T14:14:07Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - ProactivePIM: Accelerating Weight-Sharing Embedding Layer with PIM for Scalable Recommendation System [16.2798383044926]
サイズ削減のために重み共有アルゴリズムが提案されているが、メモリアクセスが増加する。
最近のPIM(Processing-in-Memory)の進歩は、メモリ並列性を利用してモデルのスループットを向上した。
重量共有レコメンデーションシステムアクセラレーションのためのPIMシステムであるProactivePIMを提案する。
論文 参考訳(メタデータ) (2024-02-06T14:26:22Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。