論文の概要: A Tensor Compiler for Processing-In-Memory Architectures
- arxiv url: http://arxiv.org/abs/2511.15503v1
- Date: Wed, 19 Nov 2025 14:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.856587
- Title: A Tensor Compiler for Processing-In-Memory Architectures
- Title(参考訳): メモリ内処理のためのテンソルコンパイラ
- Authors: Peiming Yang, Sankeerth Durvasula, Ivan Fernandez, Mohammad Sadrosadati, Onur Mutlu, Gennady Pekhimenko, Christina Giannoula,
- Abstract要約: Processing-In-Memory(PIM)デバイスは、Large Language Models(LLM)を含む機械学習(ML)モデルにおいて、メモリ集約カーネルを加速することができる。
現在のコンパイルアプローチでは、複数のPIMバックエンドにまたがる多様なMLカーネルの体系的な最適化が欠如している。
我々は、データ再構成と計算コード最適化を共同で最適化するPIMシステムのための、最初のデータ中心のMLコンパイラDCCを設計する。
- 参考スコア(独自算出の注目度): 8.353569627672622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Processing-In-Memory (PIM) devices integrated with high-performance Host processors (e.g., GPUs) can accelerate memory-intensive kernels in Machine Learning (ML) models, including Large Language Models (LLMs), by leveraging high memory bandwidth at PIM cores. However, Host processors and PIM cores require different data layouts: Hosts need consecutive elements distributed across DRAM banks, while PIM cores need them within local banks. This necessitates data rearrangements in ML kernel execution that pose significant performance and programmability challenges, further exacerbated by the need to support diverse PIM backends. Current compilation approaches lack systematic optimization for diverse ML kernels across multiple PIM backends and may largely ignore data rearrangements during compute code optimization. We demonstrate that data rearrangements and compute code optimization are interdependent, and need to be jointly optimized during the tuning process. To address this, we design DCC, the first data-centric ML compiler for PIM systems that jointly co-optimizes data rearrangements and compute code in a unified tuning process. DCC integrates a multi-layer PIM abstraction that enables various data distribution and processing strategies on different PIM backends. DCC enables effective co-optimization by mapping data partitioning strategies to compute loop partitions, applying PIM-specific code optimizations and leveraging a fast and accurate performance prediction model to select optimal configurations. Our evaluations in various individual ML kernels demonstrate that DCC achieves up to 7.68x speedup (2.7x average) on HBM-PIM and up to 13.17x speedup (5.75x average) on AttAcc PIM backend over GPU-only execution. In end-to-end LLM inference, DCC on AttAcc accelerates GPT-3 and LLaMA-2 by up to 7.71x (4.88x average) over GPU.
- Abstract(参考訳): 高性能ホストプロセッサ(GPUなど)と統合されたPIM(Processing-In-Memory)デバイスは、PIMコアでの高メモリ帯域幅を活用することで、Large Language Models(LLM)を含む機械学習(ML)モデルにおいて、メモリ集約的なカーネルを加速することができる。
しかし、ホストプロセッサとPIMコアは異なるデータレイアウトを必要とする: ホストはDRAMバンクにまたがる連続的な要素を必要とし、PIMコアはローカルバンク内でそれらを必要とする。
これにより、MLカーネルの実行において、さまざまなPIMバックエンドをサポートする必要性によってさらに悪化する、大幅なパフォーマンスとプログラマビリティの課題を引き起こすデータアレンジメントが必要になる。
現在のコンパイルアプローチでは、複数のPIMバックエンドにまたがる多様なMLカーネルの体系的な最適化が欠如しており、計算コード最適化時のデータ再構成をほとんど無視する可能性がある。
我々は、データアレンジメントと計算コードの最適化が相互依存していることを示し、チューニングプロセス中に共同で最適化する必要がある。
そこで我々は,PIMシステム用のデータ中心型MLコンパイラDCCを設計し,データ再構成と計算コードを統一的なチューニングプロセスで共同で最適化する。
DCCは多層PIM抽象化を統合し、異なるPIMバックエンド上で様々なデータ分散と処理戦略を可能にする。
DCCは、データパーティショニング戦略をループ分割の計算にマッピングし、PIM固有のコード最適化を適用し、高速で正確な性能予測モデルを利用して最適な構成を選択することで、効果的な協調最適化を可能にする。
HBM-PIMでは最大7.68倍(平均2.7倍)、GPUのみの実行ではAttAcc PIMバックエンドでは最大13.17倍(平均5.75倍)のスピードアップを実現している。
エンドツーエンドのLCM推論では、AtAcc上のDCCはGPU上でGPT-3とLLaMA-2を最大7.71倍(平均4.88倍)加速する。
関連論文リスト
- xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference [6.886434948681708]
大きな言語モデル(LLM)では、長いテキストシーケンスの処理がますます必要になるが、GPUメモリの制限により、メモリ容量と帯域幅のトレードオフが困難になる。
重要なメモリボトルネックは、マルチヘッドアテンションの復号フェーズにある。
本稿では,DIMM-PIMとGPUデバイスを統合したハードウェア・ソフトウェア共同設計システムであるL3を提案する。
論文 参考訳(メタデータ) (2025-04-24T14:14:07Z) - PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System [13.678531084541666]
PAPI は PIM 対応のヘテロジニアスアーキテクチャで,計算バウンドカーネルやメモリバウンドカーネルを適切なハードウェアユニットに動的にスケジューリングする。
PAPIは最先端の異種加速器と最先端のPIM専用加速器で1.8$times$と11.1$times$を達成している。
論文 参考訳(メタデータ) (2025-02-21T13:52:31Z) - LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System [6.21613161960432]
大規模言語モデル(LLM)は数万のトークンのシーケンスを処理する。
Processing-in-Memory (PIM) は、計算をデータに移動させることでメモリ帯域幅を最大化する。
LoL-PIM はマルチノード PIM アーキテクチャであり、ハードウェアとソフトウェアの共同設計により長期のコンテキスト LLM を高速化する。
論文 参考訳(メタデータ) (2024-12-28T14:38:16Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。