論文の概要: NeuraChip: Accelerating GNN Computations with a Hash-based Decoupled Spatial Accelerator
- arxiv url: http://arxiv.org/abs/2404.15510v2
- Date: Thu, 25 Apr 2024 15:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 12:31:48.748530
- Title: NeuraChip: Accelerating GNN Computations with a Hash-based Decoupled Spatial Accelerator
- Title(参考訳): NeuraChip: ハッシュベースのデカップリング空間加速器によるGNN計算の高速化
- Authors: Kaustubh Shivdikar, Nicolas Bohm Agostini, Malith Jayaweera, Gilbert Jonatan, Jose L. Abellan, Ajay Joshi, John Kim, David Kaeli,
- Abstract要約: 我々はGustavsonのアルゴリズムに基づく新しいGNN空間加速器であるNeuraChipを紹介する。
NeuraChipはスパース行列乗算における乗算と加算計算を分離する。
我々はまた、包括的なパフォーマンス解析のためのオープンソース、サイクル精度、マルチスレッドモジュールシミュレータであるNeuraSimを提示する。
- 参考スコア(独自算出の注目度): 3.926150707772004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph Neural Networks (GNNs) are emerging as a formidable tool for processing non-euclidean data across various domains, ranging from social network analysis to bioinformatics. Despite their effectiveness, their adoption has not been pervasive because of scalability challenges associated with large-scale graph datasets, particularly when leveraging message passing. To tackle these challenges, we introduce NeuraChip, a novel GNN spatial accelerator based on Gustavson's algorithm. NeuraChip decouples the multiplication and addition computations in sparse matrix multiplication. This separation allows for independent exploitation of their unique data dependencies, facilitating efficient resource allocation. We introduce a rolling eviction strategy to mitigate data idling in on-chip memory as well as address the prevalent issue of memory bloat in sparse graph computations. Furthermore, the compute resource load balancing is achieved through a dynamic reseeding hash-based mapping, ensuring uniform utilization of computing resources agnostic of sparsity patterns. Finally, we present NeuraSim, an open-source, cycle-accurate, multi-threaded, modular simulator for comprehensive performance analysis. Overall, NeuraChip presents a significant improvement, yielding an average speedup of 22.1x over Intel's MKL, 17.1x over NVIDIA's cuSPARSE, 16.7x over AMD's hipSPARSE, and 1.5x over prior state-of-the-art SpGEMM accelerator and 1.3x over GNN accelerator. The source code for our open-sourced simulator and performance visualizer is publicly accessible on GitHub https://neurachip.us
- Abstract(参考訳): グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析からバイオインフォマティクスまで、さまざまな領域にわたる非ユークリッドデータを処理するための、恐ろしいツールとして登場している。
その効果にもかかわらず、大規模なグラフデータセットに関連するスケーラビリティ上の課題、特にメッセージパッシングを利用した場合、採用は広範に行われていない。
これらの課題に対処するために、Gustavsonのアルゴリズムに基づく新しいGNN空間加速器であるNeuraChipを紹介する。
NeuraChipはスパース行列乗算における乗算と加算計算を分離する。
この分離により、独自のデータ依存関係を独立して活用することができ、効率的なリソース割り当てが容易になる。
本稿では,オンチップメモリにおけるデータのアイドリングを軽減し,スパースグラフ計算におけるメモリ肥大問題に対処するためのローリングエビクション戦略を提案する。
さらに、動的再検索ハッシュベースのマッピングによって計算リソースの負荷分散を実現し、スパーシティパターンに依存しない計算リソースの均一な利用を確保する。
最後に,包括的性能解析のためのオープンソース,サイクル精度,マルチスレッド,モジュールシミュレータであるNeuraSimを紹介する。
全体として、NeuraChipはIntelのMKLよりも平均22.1倍、NVIDIAのcuSPARSEより17.1倍、AMDのhipSPARSEより16.7倍、最先端のSpGEMMアクセラレータより1.5倍、GNNアクセラレータより平均1.3倍のスピードアップを実現している。
オープンソースシミュレータとパフォーマンスビジュアライザのソースコードはGitHub https://neurachip.usで公開されている。
関連論文リスト
- Combined Scheduling, Memory Allocation and Tensor Replacement for
Minimizing Off-Chip Data Accesses of DNN Accelerators [6.393909466547065]
本稿では,Deep Neural Networks を専用ハードウェアアクセラレータにマッピングする COSMA という最適化フレームワークを提案する。
COSMAは、データアクセスを最小化する最適な演算子スケジュール、メモリ割り当て、テンソル置換を見つける。
既製のICPソルバを用いてCOSMAは,異なるアプリケーションに対して,多種多様な最先端DNNに対して,数秒で最適解が得られることを示した。
論文 参考訳(メタデータ) (2023-11-30T04:36:25Z) - Exploiting On-chip Heterogeneity of Versal Architecture for GNN
Inference Acceleration [0.5249805590164902]
グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析やバイオインフォマティクスなど、多くの機械学習(ML)アプリケーションに革命をもたらした。
我々は,AMD Versal ACAPアーキテクチャの不均一な計算能力を活用し,GNN推論を高速化する。
グラフ畳み込みネットワーク(GCN)では,同一のACAPデバイス上でのみPLを用いた設計と比較して3.9-96.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-08-04T23:57:55Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and
Preprocessing [0.0]
グラフニューラルネットワーク(GNN)は、ディープニューラルネットワーク(DNN)の成功を非ユークリッドグラフデータに拡張した。
既存のシステムは、数十億のノードとエッジを持つ巨大なグラフをGPUでトレーニングする非効率である。
本稿では,ボトルネックに対処するための分散GNN学習システムであるBGLを提案する。
論文 参考訳(メタデータ) (2021-12-16T00:37:37Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Adaptive Filters and Aggregator Fusion for Efficient Graph Convolutions [11.769185588579488]
本稿では,アクセル実装に適した特性とともに,メモリ消費と遅延を低減した最先端性能を示す。
提案手法は,エッジ数に比例するメモリを必要とする競合手法とは対照的に,グラフ内の頂点数に比例するメモリを用いる。
GNNが表現力を大幅に高める技術であるアグリゲーター融合を提案し、標準のスパース行列乗算よりも19%の遅延がわずかに増加している。
論文 参考訳(メタデータ) (2021-04-03T20:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。