論文の概要: SimplePIM: A Software Framework for Productive and Efficient
Processing-in-Memory
- arxiv url: http://arxiv.org/abs/2310.01893v1
- Date: Tue, 3 Oct 2023 08:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 05:05:38.541849
- Title: SimplePIM: A Software Framework for Productive and Efficient
Processing-in-Memory
- Title(参考訳): simplepim: 生産的かつ効率的なメモリ内処理のためのソフトウェアフレームワーク
- Authors: Jinfan Chen, Juan G\'omez-Luna, Izzat El Hajj, Yuxin Guo, Onur Mutlu
- Abstract要約: PIM(Processing-in-Memory)パラダイムは、メモリチップ内で計算を実行することで、このボトルネックを軽減することを目的としている。
本稿では,実際のPIMシステムのプログラミングを支援するための新しいソフトウェアフレームワークSimplePIMを提案する。
We implement SimplePIM for the UPMEM PIM system and evaluation it on six major application。
- 参考スコア(独自算出の注目度): 8.844860045305772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data movement between memory and processors is a major bottleneck in modern
computing systems. The processing-in-memory (PIM) paradigm aims to alleviate
this bottleneck by performing computation inside memory chips. Real PIM
hardware (e.g., the UPMEM system) is now available and has demonstrated
potential in many applications. However, programming such real PIM hardware
remains a challenge for many programmers.
This paper presents a new software framework, SimplePIM, to aid programming
real PIM systems. The framework processes arrays of arbitrary elements on a PIM
device by calling iterator functions from the host and provides primitives for
communication among PIM cores and between PIM and the host system. We implement
SimplePIM for the UPMEM PIM system and evaluate it on six major applications.
Our results show that SimplePIM enables 66.5% to 83.1% reduction in lines of
code in PIM programs. The resulting code leads to higher performance (between
10% and 37% speedup) than hand-optimized code in three applications and
provides comparable performance in three others. SimplePIM is fully and freely
available at https://github.com/CMU-SAFARI/SimplePIM.
- Abstract(参考訳): メモリとプロセッサ間のデータ移動は、現代のコンピューティングシステムにおいて大きなボトルネックである。
processing-in-memory (pim)パラダイムは、メモリチップ内で計算を行うことで、このボトルネックを緩和することを目的としている。
リアルPIMハードウェア(例: UPMEM システム)が現在利用可能であり、多くのアプリケーションで可能性を示している。
しかし、実際のPIMハードウェアのプログラミングは多くのプログラマにとって課題である。
本稿では,実際のPIMシステムのプログラミングを支援するための新しいソフトウェアフレームワークSimplePIMを提案する。
フレームワークは、ホストからイテレータ関数を呼び出して、PIMデバイス上の任意の要素の配列を処理し、PIMコアとホストシステム間の通信のためのプリミティブを提供する。
我々は,upmem pimシステム用にsimplepimを実装し,主要な6つのアプリケーションで評価する。
その結果,SimplePIMはPIMプログラムのコード行数を66.5%から83.1%削減できることがわかった。
結果として生成されたコードは、3つのアプリケーションで手動最適化されたコードよりも高いパフォーマンス(10%から37%のスピードアップ)をもたらし、3つのアプリケーションで同等のパフォーマンスを提供する。
SimplePIMはhttps://github.com/CMU-SAFARI/SimplePIMで利用可能である。
関連論文リスト
- Dataflow-Aware PIM-Enabled Manycore Architecture for Deep Learning Workloads [16.67441258454545]
PIM(Processing-in-Memory)は、ディープラーニング(DL)ワークロードのエネルギー効率と高性能アクセラレーションの実現手段として登場した。
抵抗型ランダムアクセスメモリ(ReRAM)は、PIMを実装する上で最も有望な技術の一つである。
既存のPIMベースのアーキテクチャは、主に通信の役割を無視しながら計算に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-28T00:29:15Z) - Accelerating Graph Neural Networks on Real Processing-In-Memory Systems [10.346193036709073]
実PIMシステム上でグラフニューラルネットワークを高速化する,効率的なMLフレームワークであるPyGimを紹介する。
我々は、プロセッサ中心およびメモリ中心のコンピューティングシステムにおいて、計算集約型およびメモリ集約型のカーネルが実行されるハイブリッドGNN実行を提供する。
我々は、1992年のPIMコアを持つ実世界のPIMシステム上で、新しいGNNモデルを用いてPyGimを広範囲に評価し、Intel Xeonの最先端CPUを平均3.04倍に上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-26T16:52:35Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - Evaluating Homomorphic Operations on a Real-World Processing-In-Memory System [7.46176168736093]
ホモモルフィック暗号化は データのセキュリティとプライバシーのリスクを減らす 有望なアプローチだ
我々は、PIM(Processing-in-Memory)パラダイムを使用して、大規模なメモリ容量と頻繁なデータ移動要求を軽減する。
論文 参考訳(メタデータ) (2023-09-12T19:39:15Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - TransPimLib: A Library for Efficient Transcendental Functions on
Processing-in-Memory Systems [8.440839526313797]
三角関数,双曲関数,指数,対数,平方根などに対する CORDIC および LUT に基づく手法を提供するライブラリである emphTransPimLib について述べる。
UPMEM PIMアーキテクチャのためのTransPimLibの実装を開発し、性能と精度の観点からTransPimLibの手法を徹底的に評価する。
論文 参考訳(メタデータ) (2023-04-03T12:41:46Z) - An Experimental Evaluation of Machine Learning Training on a Real
Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-16T09:39:53Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。