論文の概要: MaxK-GNN: Towards Theoretical Speed Limits for Accelerating Graph Neural
Networks Training
- arxiv url: http://arxiv.org/abs/2312.08656v3
- Date: Thu, 22 Feb 2024 05:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:11:20.395116
- Title: MaxK-GNN: Towards Theoretical Speed Limits for Accelerating Graph Neural
Networks Training
- Title(参考訳): MaxK-GNN: グラフニューラルネットワーク学習の高速化のための理論的速度限界を目指して
- Authors: Hongwu Peng, Xi Xie, Kaustubh Shivdikar, MD Amit Hasan, Jiahui Zhao,
Shaoyi Huang, Omer Khan, David Kaeli, Caiwen Ding
- Abstract要約: アルゴリズムとシステム革新を統合した高性能GPUトレーニングシステムMaxK-GNNを提案する。
実験により、マックスK-GNNシステムは、アムダールの法則に従って理論的なスピードアップ限界に接近できることが示された。
我々はSOTA GNNに匹敵する精度を達成したが、Redditでは3.22/4.24倍のスピードアップ(理論上の限界vs, 5.52/7.27倍)を実現した。
- 参考スコア(独自算出の注目度): 7.463847965788815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the acceleration of deep neural network training, the GPU has become the
mainstream platform. GPUs face substantial challenges on GNNs, such as workload
imbalance and memory access irregularities, leading to underutilized hardware.
Existing solutions such as PyG, DGL with cuSPARSE, and GNNAdvisor frameworks
partially address these challenges but memory traffic is still significant.
We argue that drastic performance improvements can only be achieved by the
vertical optimization of algorithm and system innovations, rather than treating
the speedup optimization as an "after-thought" (i.e., (i) given a GNN
algorithm, designing an accelerator, or (ii) given hardware, mainly optimizing
the GNN algorithm). In this paper, we present MaxK-GNN, an advanced
high-performance GPU training system integrating algorithm and system
innovation. (i) We introduce the MaxK nonlinearity and provide a theoretical
analysis of MaxK nonlinearity as a universal approximator, and present the
Compressed Balanced Sparse Row (CBSR) format, designed to store the data and
index of the feature matrix after nonlinearity; (ii) We design a coalescing
enhanced forward computation with row-wise product-based SpGEMM Kernel using
CBSR for input feature matrix fetching and strategic placement of a sparse
output accumulation buffer in shared memory; (iii) We develop an optimized
backward computation with outer product-based and SSpMM Kernel.
We conduct extensive evaluations of MaxK-GNN and report the end-to-end system
run-time. Experiments show that MaxK-GNN system could approach the theoretical
speedup limit according to Amdahl's law. We achieve comparable accuracy to SOTA
GNNs, but at a significantly increased speed: 3.22/4.24 times speedup (vs.
theoretical limits, 5.52/7.27 times) on Reddit compared to DGL and GNNAdvisor
implementations.
- Abstract(参考訳): ディープニューラルネットワークトレーニングの加速において、GPUは主流のプラットフォームになった。
GPUは、ワークロードの不均衡やメモリアクセスの不規則など、GNNに重大な課題に直面し、未使用のハードウェアに繋がる。
PyG、cuSPARSEを使ったDGL、GNNAdvisorフレームワークといった既存のソリューションは、これらの課題に部分的に対処するが、メモリトラフィックは依然として重要である。
我々は、高速化最適化を「後考」として扱うのではなく、アルゴリズムとシステム革新の垂直最適化によってのみ、劇的な性能改善が達成できると主張している。
(i)GNNアルゴリズムを与えられたり、加速器を設計したり、
(ii)gnnアルゴリズムを最適化したハードウェアが与えられた。
本稿では,アルゴリズムとシステム革新を統合した高性能GPUトレーニングシステムMaxK-GNNを提案する。
(i)MaxK非線形性を導入し、MaxK非線形性を普遍近似として理論的解析し、非線形性後の特徴行列のデータとインデックスを保存するために設計されたCompressed Balanced Sparse Row(CBSR)フォーマットを示す。
(II)入力特徴量取得と共有メモリにおけるスパース出力蓄積バッファの戦略的配置にCBSRを用いた行ワイズ製品ベースSpGEMMカーネルを用いたコーデッシング強化フォワード計算を設計する。
(iii)外部製品ベースおよびsspmmカーネルを用いた最適化後向き計算を開発した。
我々はMaxK-GNNを広範囲に評価し、エンドツーエンドのシステム実行状況を報告する。
実験により、maxk-gnnシステムはamdahlの法則に従って理論的なスピードアップ限界に近づくことができた。
我々はSOTA GNNに匹敵する精度を達成したが、DGLやGNNAdvisorの実装と比較して、Redditの3.22/4.24倍のスピードアップ(理論上の制限は5.52/7.27倍)を実現した。
関連論文リスト
- DF-GNN: Dynamic Fusion Framework for Attention Graph Neural Networks on GPUs [10.766922709869831]
本稿では,Attention Graph Neural Networks (AT-GNN) ファミリーを対象とした動的カーネル融合フレームワーク DF-GNN を提案する。
DF-GNNは動的双方向スレッドスケジューリング戦略を導入し、スレッドスケジューリングの柔軟な調整を可能にする。
cuGraphやdgNNのような既存のGNNカーネルの最適化作業を超え、最先端のDGLスパースライブラリよりも7.0times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-11-25T06:26:58Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - Hardware/Software Co-Programmable Framework for Computational SSDs to
Accelerate Deep Learning Service on Large-Scale Graphs [8.698995648930806]
グラフニューラルネットワーク(GNN)は、100億のエッジからなる大規模グラフを処理する。
高速でエネルギー効率のよいGNN処理のための,使い易く,ほぼ保存可能な推論基盤を提供する,大規模グラフの新たなディープラーニングフレームワークであるHolisticGNNを提案する。
論文 参考訳(メタデータ) (2022-01-23T06:08:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - TC-GNN: Bridging Sparse GNN Computation and Dense Tensor Cores on GPUs [21.63854538768414]
我々はGPUコアユニット(TCU)をベースとした最初のGNNフレームワークであるTC-GNNを提案する。
中心となるアイデアは、"スパース"GNNを高性能な"デンス"TCUと整合させることである。
厳密な実験は、最先端のDGLフレームワーク上で平均1.70のスピードアップを示している。
論文 参考訳(メタデータ) (2021-12-03T18:06:23Z) - SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN
Accelerators for Edge Inference [0.0]
本稿では,FPGAを用いたエッジデバイス上でのDeep Neural Networks (DNN) 推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。
SECDAを用いて、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、2つの異なるDNNアクセラレータ設計を効率的に開発する。
我々は,4つの一般的なDNNモデルを用いた2つの加速器設計を評価し,CPUのみの推論よりもエネルギー消費を2.9$times$で3.5$times$までのモデルで平均性能を向上した。
論文 参考訳(メタデータ) (2021-10-01T15:20:29Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - BlockGNN: Towards Efficient GNN Acceleration Using Block-Circulant
Weight Matrices [9.406007544032848]
グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータを分析するための最先端のアルゴリズムです。
リアルタイムにGNNを推論する方法は、リソース制限のあるエッジコンピューティングプラットフォームでは難しい問題となっている。
効率的なGNN加速を実現するソフトウェアハードウェアの共同設計手法であるBlockGNNを提案する。
論文 参考訳(メタデータ) (2021-04-13T14:09:22Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。