Fugu-MT 論文翻訳(概要): SimplePIM: A Software Framework for Productive and Efficient Processing-in-Memory

論文の概要: SimplePIM: A Software Framework for Productive and Efficient Processing-in-Memory

arxiv url: http://arxiv.org/abs/2310.01893v1
Date: Tue, 3 Oct 2023 08:59:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 05:05:38.541849
Title: SimplePIM: A Software Framework for Productive and Efficient Processing-in-Memory
Title（参考訳）: simplepim: 生産的かつ効率的なメモリ内処理のためのソフトウェアフレームワーク
Authors: Jinfan Chen, Juan G\'omez-Luna, Izzat El Hajj, Yuxin Guo, Onur Mutlu
Abstract要約: PIM(Processing-in-Memory)パラダイムは、メモリチップ内で計算を実行することで、このボトルネックを軽減することを目的としている。本稿では,実際のPIMシステムのプログラミングを支援するための新しいソフトウェアフレームワークSimplePIMを提案する。 We implement SimplePIM for the UPMEM PIM system and evaluation it on six major application。
参考スコア（独自算出の注目度）: 8.844860045305772
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data movement between memory and processors is a major bottleneck in modern computing systems. The processing-in-memory (PIM) paradigm aims to alleviate this bottleneck by performing computation inside memory chips. Real PIM hardware (e.g., the UPMEM system) is now available and has demonstrated potential in many applications. However, programming such real PIM hardware remains a challenge for many programmers. This paper presents a new software framework, SimplePIM, to aid programming real PIM systems. The framework processes arrays of arbitrary elements on a PIM device by calling iterator functions from the host and provides primitives for communication among PIM cores and between PIM and the host system. We implement SimplePIM for the UPMEM PIM system and evaluate it on six major applications. Our results show that SimplePIM enables 66.5% to 83.1% reduction in lines of code in PIM programs. The resulting code leads to higher performance (between 10% and 37% speedup) than hand-optimized code in three applications and provides comparable performance in three others. SimplePIM is fully and freely available at https://github.com/CMU-SAFARI/SimplePIM.
Abstract（参考訳）: メモリとプロセッサ間のデータ移動は、現代のコンピューティングシステムにおいて大きなボトルネックである。 processing-in-memory (pim)パラダイムは、メモリチップ内で計算を行うことで、このボトルネックを緩和することを目的としている。リアルPIMハードウェア(例: UPMEM システム)が現在利用可能であり、多くのアプリケーションで可能性を示している。しかし、実際のPIMハードウェアのプログラミングは多くのプログラマにとって課題である。本稿では,実際のPIMシステムのプログラミングを支援するための新しいソフトウェアフレームワークSimplePIMを提案する。フレームワークは、ホストからイテレータ関数を呼び出して、PIMデバイス上の任意の要素の配列を処理し、PIMコアとホストシステム間の通信のためのプリミティブを提供する。我々は,upmem pimシステム用にsimplepimを実装し,主要な6つのアプリケーションで評価する。その結果,SimplePIMはPIMプログラムのコード行数を66.5%から83.1%削減できることがわかった。結果として生成されたコードは、3つのアプリケーションで手動最適化されたコードよりも高いパフォーマンス(10%から37%のスピードアップ)をもたらし、3つのアプリケーションで同等のパフォーマンスを提供する。 SimplePIMはhttps://github.com/CMU-SAFARI/SimplePIMで利用可能である。

関連論文リスト

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文参考訳（メタデータ） (2025-06-18T19:44:46Z)
MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。 MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。 Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文参考訳（メタデータ） (2025-04-16T23:15:09Z)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳（メタデータ） (2025-02-03T18:35:42Z)
LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System [6.21613161960432]
大規模言語モデル(LLM)は数万のトークンのシーケンスを処理する。 Processing-in-Memory (PIM) は、計算をデータに移動させることでメモリ帯域幅を最大化する。 LoL-PIM はマルチノード PIM アーキテクチャであり、ハードウェアとソフトウェアの共同設計により長期のコンテキスト LLM を高速化する。
論文参考訳（メタデータ） (2024-12-28T14:38:16Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Dynamic neural network with memristive CIM and CAM for 2D and 3D vision [57.6208980140268]
本稿では,memristor を用いた意味記憶に基づく動的ニューラルネットワーク (DNN) を提案する。ネットワークは、受信したデータとセマンティックベクターとして格納された過去の経験を関連付ける。 MNISTとModelNetのデータセットから画像と3Dポイントを分類するために、ResNetとPointNet++の40nmのmemristorマクロを用いて、我々の共同設計を検証する。
論文参考訳（メタデータ） (2024-07-12T04:55:57Z)
PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文参考訳（メタデータ） (2024-04-10T17:00:04Z)
PyGim: An Efficient Graph Neural Network Library for Real Processing-In-Memory Architectures [10.047157906258196]
実PIMシステム上でグラフニューラルネットワークを高速化する,効率的なMLライブラリであるPyGimを紹介する。我々は、計算集約型およびメモリ集約型カーネルをプロセッサ中心およびメモリ中心のシステムで実行するハイブリッドGNN実行を提供する。我々は、1992年のPIMコアを持つ実世界のPIMシステム上で、新しいGNNモデルを用いてPyGimを広範囲に評価し、Intel Xeonの最先端CPUを平均3.04倍に上回っていることを示す。
論文参考訳（メタデータ） (2024-02-26T16:52:35Z)
ProactivePIM: Accelerating Weight-Sharing Embedding Layer with PIM for Scalable Recommendation System [16.2798383044926]
サイズ削減のために重み共有アルゴリズムが提案されているが、メモリアクセスが増加する。最近のPIM(Processing-in-Memory)の進歩は、メモリ並列性を利用してモデルのスループットを向上した。重量共有レコメンデーションシステムアクセラレーションのためのPIMシステムであるProactivePIMを提案する。
論文参考訳（メタデータ） (2024-02-06T14:26:22Z)
EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文参考訳（メタデータ） (2023-11-12T17:56:39Z)
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文参考訳（メタデータ） (2023-08-28T05:38:43Z)
TransPimLib: A Library for Efficient Transcendental Functions on Processing-in-Memory Systems [8.440839526313797]
三角関数,双曲関数,指数,対数,平方根などに対する CORDIC および LUT に基づく手法を提供するライブラリである emphTransPimLib について述べる。 UPMEM PIMアーキテクチャのためのTransPimLibの実装を開発し、性能と精度の観点からTransPimLibの手法を徹底的に評価する。
論文参考訳（メタデータ） (2023-04-03T12:41:46Z)
An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文参考訳（メタデータ） (2022-07-16T09:39:53Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文参考訳（メタデータ） (2022-03-09T18:58:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。