論文の概要: I-GCN: A Graph Convolutional Network Accelerator with Runtime Locality
Enhancement through Islandization
- arxiv url: http://arxiv.org/abs/2203.03606v1
- Date: Mon, 7 Mar 2022 18:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 18:36:44.339156
- Title: I-GCN: A Graph Convolutional Network Accelerator with Runtime Locality
Enhancement through Islandization
- Title(参考訳): i-gcn: 島化による実行時の局所性向上を備えたグラフ畳み込みネットワークアクセラレータ
- Authors: Tong Geng, Chunshu Wu, Yongan Zhang, Cheng Tan, Chenhao Xie, Haoran
You, Martin C. Herbordt, Yingyan Lin, Ang Li
- Abstract要約: グラフ畳み込みネットワーク(GCN)は、過去3年間、大きな注目を集めてきた。
GCNの高速ハードウェアアクセラレーションは、非常に重要であるが、さらに難しい。
本稿では,GCN推論のためのハードウェアアクセラレータI-GCNを提案する。
- 参考スコア(独自算出の注目度): 29.070089261016832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Convolutional Networks (GCNs) have drawn tremendous attention in the
past three years. Compared with other deep learning modalities,
high-performance hardware acceleration of GCNs is as critical but even more
challenging. The hurdles arise from the poor data locality and redundant
computation due to the large size, high sparsity, and irregular non-zero
distribution of real-world graphs.
In this paper we propose a novel hardware accelerator for GCN inference,
called I-GCN, that significantly improves data locality and reduces unnecessary
computation. The mechanism is a new online graph restructuring algorithm we
refer to as islandization. The proposed algorithm finds clusters of nodes with
strong internal but weak external connections. The islandization process yields
two major benefits. First, by processing islands rather than individual nodes,
there is better on-chip data reuse and fewer off-chip memory accesses. Second,
there is less redundant computation as aggregation for common/shared neighbors
in an island can be reused. The parallel search, identification, and leverage
of graph islands are all handled purely in hardware at runtime working in an
incremental pipeline. This is done without any preprocessing of the graph data
or adjustment of the GCN model structure.
Experimental results show that I-GCN can significantly reduce off-chip
accesses and prune 38% of aggregation operations, leading to performance
speedups over CPUs, GPUs, the prior art GCN accelerators of 5549x, 403x, and
5.7x on average, respectively.
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)は、過去3年間、大きな注目を集めてきた。
他のディープラーニングのモダリティと比較すると、GCNの高速ハードウェアアクセラレーションは重要であるが、さらに難しい。
ハードルは、大きなサイズ、高い空間性、および現実世界のグラフの不規則な非ゼロ分布のために、データの局所性と冗長な計算によって生じる。
本稿では,データローカリティを大幅に改善し,不要な計算量を削減する,新しいgcn推論用ハードウェアアクセラレータ i-gcn を提案する。
このメカニズムは、我々が島化と呼ぶ新しいオンライングラフ再構成アルゴリズムである。
提案アルゴリズムは,内部接続が強いが外部接続が弱いノード群を探索する。
島化プロセスには2つの大きな利点がある。
まず、個々のノードではなくアイランドを処理することで、オンチップデータの再利用が向上し、オフチップメモリアクセスが少なくなる。
第二に、島内の共通/共有隣人の集約を再利用できるため、冗長な計算は少ない。
graph islandsの並列検索、識別、活用はすべて、インクリメンタルパイプラインで動作する実行時のハードウェアで純粋に処理される。
これは、グラフデータの事前処理やGCNモデル構造の調整なしに行われる。
実験結果から、I-GCNはオフチップアクセスと38%のアグリゲーション操作を著しく削減でき、CPU、GPU、前回のアートGCNアクセラレータ5549x、403x、および5.7xでそれぞれ性能が向上することが示された。
関連論文リスト
- Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - Accel-GCN: High-Performance GPU Accelerator Design for Graph Convolution
Networks [12.181052673940465]
グラフ畳み込みネットワーク(GCN)は、様々な領域にわたるグラフデータから潜伏情報を抽出する上で重要である。
本稿では,GCNのためのGPUアクセラレータアーキテクチャであるAccel-GCNを紹介する。
18のベンチマークグラフに対するAccel-GCNの評価では、cuSPARSE、GNNAdvisor、Graph-BLASTをそれぞれ1.17倍、1.86倍、2.94倍で上回っている。
論文 参考訳(メタデータ) (2023-08-22T23:12:17Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Scalable Graph Convolutional Network Training on Distributed-Memory
Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。
グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。
本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-09T17:51:13Z) - GCoD: Graph Convolutional Network Acceleration via Dedicated Algorithm
and Accelerator Co-Design [27.311994997480745]
グラフ畳み込みネットワーク(GCN)が最先端のグラフ学習モデルとして登場した。
大きなグラフデータセット上でGCNを推論することは、非常に難しい。
本稿では、前述のGCNの不規則性を大幅に軽減できるGCNアルゴリズムとGCoDと呼ばれる加速器協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-22T00:30:50Z) - GNNIE: GNN Inference Engine with Load-balancing and Graph-Specific
Caching [2.654276707313136]
GNNIEは、幅広いグラフニューラルネットワーク(GNN)を実行するために設計されたアクセラレータである。
i)ノード特徴オペランドをブロックに分割し、 (ii) 再注文と再配布を行い、 (iii) 処理要素間の通信オーバーヘッドの少ない柔軟なMACアーキテクチャを使用する。
GNNIEは、CPU上の8890倍、グラフアテンションネットワーク(GAT)、グラフ畳み込みネットワーク(GCN)、GraphSAGE、GINConv、DiffPool上の複数のデータセット上のGPU上の295倍の平均スピードアップを達成する。
論文 参考訳(メタデータ) (2021-05-21T20:07:14Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Towards Efficient Graph Convolutional Networks for Point Cloud Handling [181.59146413326056]
ポイントクラウド上で学習するためのグラフ畳み込みネットワーク(GCN)の計算効率の向上を目指します。
一連の実験により、最適化されたネットワークは計算複雑性を減らし、メモリ消費を減らし、推論速度を加速した。
論文 参考訳(メタデータ) (2021-04-12T17:59:16Z) - Graph Highway Networks [77.38665506495553]
グラフ畳み込みネットワーク(GCN)は、グラフ表現の有効性と効率性から、グラフ表現の学習に広く利用されている。
彼らは、多くの層が積み重ねられたとき、学習された表現が類似したベクトルに収束するという悪名高い過度に滑らかな問題に悩まされる。
本稿では,GCN学習プロセスにおける均一性と不均一性との間のトレードオフのバランスをとるため,ゲーティングユニットを利用したグラフハイウェイネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-09T16:26:43Z) - L$^2$-GCN: Layer-Wise and Learned Efficient Training of Graph
Convolutional Networks [118.37805042816784]
グラフ畳み込みネットワーク(GCN)は、多くのアプリケーションで人気が高まっているが、大きなグラフデータセットをトレーニングするのは依然として難しい。
本稿では,GCN (L-GCN) のための新しいレイヤワイドトレーニングフレームワークを提案する。
実験の結果、L-GCNは少なくとも1桁の精度で最先端よりも高速であり、メモリ使用量はデータセットのサイズに依存しないことがわかった。
論文 参考訳(メタデータ) (2020-03-30T16:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。