Fugu-MT 論文翻訳(概要): Accelerating Graph Neural Networks on Real Processing-In-Memory Systems

論文の概要: Accelerating Graph Neural Networks on Real Processing-In-Memory Systems

arxiv url: http://arxiv.org/abs/2402.16731v2
Date: Mon, 25 Mar 2024 18:51:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 21:44:06.974720
Title: Accelerating Graph Neural Networks on Real Processing-In-Memory Systems
Title（参考訳）: 実処理インメモリシステムにおけるグラフニューラルネットワークの高速化
Authors: Christina Giannoula, Peiming Yang, Ivan Fernandez Vega, Jiacheng Yang, Yu Xin Li, Juan Gomez Luna, Mohammad Sadrosadati, Onur Mutlu, Gennady Pekhimenko,
Abstract要約: 実PIMシステム上でグラフニューラルネットワークを高速化する,効率的なMLフレームワークであるPyGimを紹介する。我々は、プロセッサ中心およびメモリ中心のコンピューティングシステムにおいて、計算集約型およびメモリ集約型のカーネルが実行されるハイブリッドGNN実行を提供する。我々は、1992年のPIMコアを持つ実世界のPIMシステム上で、新しいGNNモデルを用いてPyGimを広範囲に評価し、Intel Xeonの最先端CPUを平均3.04倍に上回っていることを示す。
参考スコア（独自算出の注目度）: 10.346193036709073
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Graph Neural Networks (GNNs) are emerging ML models to analyze graph-structure data. Graph Neural Network (GNN) execution involves both compute-intensive and memory-intensive kernels, the latter dominates the total time, being significantly bottlenecked by data movement between memory and processors. Processing-In-Memory (PIM) systems can alleviate this data movement bottleneck by placing simple processors near or inside to memory arrays. In this work, we introduce PyGim, an efficient ML framework that accelerates GNNs on real PIM systems. We propose intelligent parallelization techniques for memory-intensive kernels of GNNs tailored for real PIM systems, and develop handy Python API for them. We provide hybrid GNN execution, in which the compute-intensive and memory-intensive kernels are executed in processor-centric and memory-centric computing systems, respectively, to match their algorithmic nature. We extensively evaluate PyGim on a real-world PIM system with 1992 PIM cores using emerging GNN models, and demonstrate that it outperforms its state-of-the-art CPU counterpart on Intel Xeon by on average 3.04x, and achieves higher resource utilization than CPU and GPU systems. Our work provides useful recommendations for software, system and hardware designers. PyGim will be open-sourced to enable the widespread use of PIM systems in GNNs.
Abstract（参考訳）: グラフニューラルネットワーク(GNN)は、グラフ構造データを解析するためのMLモデルである。 Graph Neural Network (GNN) の実行には、計算集約型カーネルとメモリ集約型カーネルの両方が含まれる。 Processing-In-Memory (PIM) システムは、単純なプロセッサをメモリアレイの近傍または内側に配置することで、このデータ移動のボトルネックを軽減することができる。本稿では,実PIMシステム上でGNNを高速化する効率的なMLフレームワークであるPyGimを紹介する。我々は,実PIMシステムに適したGNNのメモリ集約カーネルのためのインテリジェント並列化手法を提案し,それらのための便利なPython APIを開発した。計算集約型カーネルとメモリ集約型カーネルをそれぞれプロセッサ中心のコンピュータシステムとメモリ中心のコンピュータシステムで実行し,そのアルゴリズム特性に適合するハイブリッドGNN実行を提供する。我々は、1992年のPIMコアを持つ実世界のPIMシステム上で、新しいGNNモデルを用いてPyGimを広範囲に評価し、Intel Xeonの最先端CPUを平均3.04倍で上回り、CPUやGPUシステムよりも高いリソース利用を実現することを実証した。私たちの仕事は、ソフトウェア、システム、ハードウェアデザイナに有用なレコメンデーションを提供します。 PyGimはオープンソースとして公開され、GNNでPIMシステムを広く利用できるようになる。

関連論文リスト

iSpLib: A Library for Accelerating Graph Neural Networks using Auto-tuned Sparse Operations [1.3030767447016454]
iSpLibは、自動調整されたスパース操作を備えたPyTorchベースのC++ライブラリである。 iSpLibは、CPU上のPyTorch 2.1.0とPyTorch Geometric 2.4.0と同等のPyTorch 2.1.0と比較して、最大27倍のトレーニングスピードアップが得られることを示した。
論文参考訳（メタデータ） (2024-03-21T21:56:44Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文参考訳（メタデータ） (2022-07-16T09:39:53Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Hardware/Software Co-Programmable Framework for Computational SSDs to Accelerate Deep Learning Service on Large-Scale Graphs [8.698995648930806]
グラフニューラルネットワーク(GNN)は、100億のエッジからなる大規模グラフを処理する。高速でエネルギー効率のよいGNN処理のための,使い易く,ほぼ保存可能な推論基盤を提供する,大規模グラフの新たなディープラーニングフレームワークであるHolisticGNNを提案する。
論文参考訳（メタデータ） (2022-01-23T06:08:18Z)
TC-GNN: Bridging Sparse GNN Computation and Dense Tensor Cores on GPUs [21.63854538768414]
我々はGPUコアユニット(TCU)をベースとした最初のGNNフレームワークであるTC-GNNを提案する。中心となるアイデアは、"スパース"GNNを高性能な"デンス"TCUと整合させることである。厳密な実験は、最先端のDGLフレームワーク上で平均1.70のスピードアップを示している。
論文参考訳（メタデータ） (2021-12-03T18:06:23Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
PyTorch-Direct: Enabling GPU Centric Data Access for Very Large Graph Neural Network Training with Irregular Accesses [19.2129567657739]
グラフニューラルネットワーク(GNN)トレーニングのためのGPU中心のデータアクセスパラダイムを可能にするPyTorch-Directを紹介します。マイクロベンチマークとエンドツーエンドのGNNトレーニングの結果から,PyTorch-Directはデータ転送時間を平均47.1%削減し,GNNトレーニングを最大1.6倍高速化した。
論文参考訳（メタデータ） (2021-01-20T04:24:39Z)
Optimizing Memory Placement using Evolutionary Graph Reinforcement Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。また,NNP-Iコンパイラと比較して28～78%の高速化を実現している。
論文参考訳（メタデータ） (2020-07-14T18:50:12Z)
Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文参考訳（メタデータ） (2020-06-26T21:03:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。