論文の概要: GraphACT: Accelerating GCN Training on CPU-FPGA Heterogeneous Platforms
- arxiv url: http://arxiv.org/abs/2001.02498v1
- Date: Tue, 31 Dec 2019 21:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 21:29:16.417815
- Title: GraphACT: Accelerating GCN Training on CPU-FPGA Heterogeneous Platforms
- Title(参考訳): GraphACT: CPU-FPGA異種プラットフォーム上でのGCNトレーニングの高速化
- Authors: Hanqing Zeng, Viktor Prasanna
- Abstract要約: グラフ畳み込みネットワーク(GCN)は、グラフ上での表現学習のための最先端のディープラーニングモデルとして登場した。
実質的かつ不規則なデータ通信のため、GCNの訓練を加速することは困難である。
我々はCPU-FPGAヘテロジニアスシステム上でGCNをトレーニングするための新しいアクセラレータを設計する。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Convolutional Networks (GCNs) have emerged as the state-of-the-art deep
learning model for representation learning on graphs. It is challenging to
accelerate training of GCNs, due to (1) substantial and irregular data
communication to propagate information within the graph, and (2) intensive
computation to propagate information along the neural network layers. To
address these challenges, we design a novel accelerator for training GCNs on
CPU-FPGA heterogeneous systems, by incorporating multiple
algorithm-architecture co-optimizations. We first analyze the computation and
communication characteristics of various GCN training algorithms, and select a
subgraph-based algorithm that is well suited for hardware execution. To
optimize the feature propagation within subgraphs, we propose a lightweight
pre-processing step based on a graph theoretic approach. Such pre-processing
performed on the CPU significantly reduces the memory access requirements and
the computation to be performed on the FPGA. To accelerate the weight update in
GCN layers, we propose a systolic array based design for efficient
parallelization. We integrate the above optimizations into a complete hardware
pipeline, and analyze its load-balance and resource utilization by accurate
performance modeling. We evaluate our design on a Xilinx Alveo U200 board
hosted by a 40-core Xeon server. On three large graphs, we achieve an order of
magnitude training speedup with negligible accuracy loss, compared with
state-of-the-art implementation on a multi-core platform.
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)は、グラフ上の表現学習のための最先端のディープラーニングモデルとして登場した。
グラフ内の情報を伝達するために,(1)実質的で不規則なデータ通信,(2)ニューラルネットワーク層に沿って情報を伝達するための集中的な計算により,GCNの訓練を加速することは困難である。
これらの課題に対処するために,複数のアルゴリズム-アーキテクチャ共最適化を組み込んで,cpu-fpgaヘテロジニアスシステム上でgcnをトレーニングする新しいアクセラレータを設計した。
まず,各種GCN学習アルゴリズムの計算と通信特性を分析し,ハードウェア実行に適したサブグラフベースのアルゴリズムを選択する。
サブグラフ内の特徴伝達を最適化するために,グラフ理論に基づく軽量な前処理ステップを提案する。
CPU上で実行される前処理は、FPGA上で実行されるメモリアクセス要求と計算を著しく削減する。
gcn層の重み付け更新を高速化するために,並列化を効率的に行うためのシストリックアレイに基づく設計を提案する。
上記の最適化を完全なハードウェアパイプラインに統合し、その負荷バランスとリソース利用を正確な性能モデリングにより分析する。
我々は40コアのxeonサーバがホストするxilinx alveo u200ボード上で設計を評価する。
3つの大きなグラフにおいて,マルチコアプラットフォームにおける最先端の実装と比較して,精度の低下を無視できるような,桁違いなトレーニングスピードアップを実現する。
関連論文リスト
- Efficient Message Passing Architecture for GCN Training on HBM-based FPGAs with Orthogonal Topology On-Chip Networks [0.0]
グラフ畳み込みネットワーク(GCN)は、グラフ上の表現学習のための最先端のディープラーニングモデルである。
NUMAベースのメモリアクセス特性を利用したメッセージパッシングアーキテクチャを提案する。
また,提案アクセラレータ内でGCN特有のバックプロパゲーションアルゴリズムを再設計した。
論文 参考訳(メタデータ) (2024-11-06T12:00:51Z) - MassiveGNN: Efficient Training via Prefetching for Massively Connected Distributed Graphs [11.026326555186333]
本稿では,現在最先端のAmazon DistDGL分散GNNフレームワーク上に,パラメータ化された連続プリフェッチと消去方式を提案する。
NERSC(National Energy Research Scientific Computing Center)のPerlmutterスーパーコンピュータでは、エンドツーエンドのトレーニング性能が15~40%向上している。
論文 参考訳(メタデータ) (2024-10-30T05:10:38Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Scalable Graph Convolutional Network Training on Distributed-Memory
Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。
グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。
本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-09T17:51:13Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - Comprehensive Graph Gradual Pruning for Sparse Training in Graph Neural
Networks [52.566735716983956]
本稿では,CGPと呼ばれるグラフの段階的プルーニングフレームワークを動的にGNNに提案する。
LTHに基づく手法とは異なり、提案手法では再学習を必要とせず、計算コストを大幅に削減する。
提案手法は,既存の手法の精度を一致させたり,あるいは超えたりしながら,トレーニングと推論の効率を大幅に向上させる。
論文 参考訳(メタデータ) (2022-07-18T14:23:31Z) - End-to-end Mapping in Heterogeneous Systems Using Graph Representation
Learning [13.810753108848582]
本稿では,エンドツーエンドでプログラム可能なグラフ表現学習フレームワークを提案する。
高レベルのプログラムの複雑さを普遍的な中間表現にマイニングし、特定の計算パターンを抽出し、特定のコア上でどのコードセグメントがベストに動作するかを予測できる。
評価では、スレッドベースの実行と比較して最大速度が6.42倍、最先端技術と比較して2.02倍であることを示す。
論文 参考訳(メタデータ) (2022-04-25T22:13:13Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - SPA-GCN: Efficient and Flexible GCN Accelerator with an Application for
Graph Similarity Computation [7.54579279348595]
本稿では,グラフ上のグラフ畳み込みネットワーク(GCN)を高速化するための,SPA-GCNと呼ばれる柔軟なアーキテクチャを提案する。
SPA-GCNはマルチコアCPU実装やGPU実装と比較して高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-10T20:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。