Fugu-MT 論文翻訳(概要): Accelerating SpMM Kernel with Cache-First Edge Sampling for GNN Inference

論文の概要: Accelerating SpMM Kernel with Cache-First Edge Sampling for GNN Inference

arxiv url: http://arxiv.org/abs/2104.10716v1
Date: Wed, 21 Apr 2021 18:33:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-23 13:44:00.641978
Title: Accelerating SpMM Kernel with Cache-First Edge Sampling for GNN Inference
Title（参考訳）: GNN推論のためのキャッシュファーストエッジサンプリングによるSpMMカーネルの高速化
Authors: Chien-Yu Lin, Liang Luo, Luis Ceze
Abstract要約: 本稿では,キャッシュファーストエッジサンプリング機構と符号付きSpMMカーネルであるES-SpMMを紹介する。 ES-SpMMはエッジサンプリングを使用してグラフを縮小してGPUの共有メモリに収まる。その結果、ES-SpMMは高度に最適化されたcuSPARSE SpMMカーネルよりも4.35倍高い性能を示し、精度は低下しない。
参考スコア（独自算出の注目度）: 4.412616624011115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graph neural networks (GNNs), an emerging deep learning model class, can extract meaningful representations from highly expressive graph-structured data and are therefore gaining popularity for wider ranges of applications. However, current GNNs suffer from the poor performance of their sparse-dense matrix multiplication (SpMM) operator, even when using powerful GPUs. Our analysis shows that 95% of the inference time could be spent on SpMM when running popular GNN models on NVIDIA's advanced V100 GPU. Such SpMM performance bottleneck hinders GNNs' applicability to large-scale problems or the development of more sophisticated GNN models. To address this inference time bottleneck, we introduce ES-SpMM, a cache-first edge sampling mechanism and codesigned SpMM kernel. ES-SpMM uses edge sampling to downsize the graph to fit into GPU's shared memory. It thus reduces the computation cost and improves SpMM's cache locality. To evaluate ES-SpMM's performance, we integrated it with a popular GNN framework, DGL, and tested it using representative GNN models and datasets. Our results show that ES-SpMM outperforms the highly optimized cuSPARSE SpMM kernel by up to 4.35x with no accuracy loss and by 45.3x with less than a 1% accuracy loss.
Abstract（参考訳）: 深層学習モデルクラスであるグラフニューラルネットワーク(GNN)は、高度に表現力のあるグラフ構造化データから意味のある表現を抽出できるため、広範囲のアプリケーションで人気を集めている。しかし、現在のGNNは、強力なGPUを使用してもスパースセンス行列乗算(SpMM)演算子の性能が劣っている。我々の分析によると、NVIDIAの高度なV100 GPU上で人気のあるGNNモデルを実行する場合、推測時間の95%がSpMMに費やされる可能性がある。このようなSpMM性能ボトルネックは、大規模問題へのGNNの適用性やより洗練されたGNNモデルの開発を妨げる。この推定時間ボトルネックに対処するために,キャッシュファーストエッジサンプリング機構と符号付きSpMMカーネルであるES-SpMMを導入する。 ES-SpMMはエッジサンプリングを使用してグラフを縮小し、GPUの共有メモリに適合させる。これにより計算コストが削減され、SpMMのキャッシュローカリティが向上する。 ES-SpMMの性能を評価するため、人気のあるGNNフレームワークであるDGLと統合し、代表的GNNモデルとデータセットを用いてテストした。その結果、ES-SpMMは、高度に最適化されたcuSPARSE SpMMカーネルを4.35倍、精度損失は45.3倍、精度損失は1%以下であることがわかった。

関連論文リスト

SpanGNN: Towards Memory-Efficient Graph Neural Networks via Spanning Subgraph Training [14.63975787929143]
グラフニューラルネットワーク(GNN)は、グラフデータを学習する能力に優れています。フルグラフGNNトレーニングは一般的に精度が高いが、ピークメモリ使用量が多い。本研究では,SpanGNNと呼ばれるスパンニングサブグラフを用いたメモリ効率のよいGNNトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-07T13:46:23Z)
Spatio-Spectral Graph Neural Networks [50.277959544420455]
比スペクトルグラフネットワーク(S$2$GNN)を提案する。 S$2$GNNは空間的およびスペクトル的にパラメータ化されたグラフフィルタを組み合わせる。 S$2$GNNsは、MPGNNsよりも厳密な近似理論誤差境界を生じる。
論文参考訳（メタデータ） (2024-05-29T14:28:08Z)
MaxK-GNN: Extremely Fast GPU Kernel Design for Accelerating Graph Neural Networks Training [7.193336207798203]
アルゴリズムとシステム革新を統合した高性能GPUトレーニングシステムMaxK-GNNを提案する。実験により、マックスK-GNNシステムは、アムダールの法則に従って理論的なスピードアップ限界に接近できることが示された。我々はSOTA GNNに匹敵する精度を達成したが、Redditでは3.22/4.24倍のスピードアップ(理論上の限界vs, 5.52/7.27倍)を実現した。
論文参考訳（メタデータ） (2023-12-14T05:00:49Z)
LazyGNN: Large-Scale Graph Neural Networks via Lazy Propagation [51.552170474958736]
グラフ表現学習においてより効率的なモデルであるLazyGNNを実現するために,より深いモデルではなく,より浅いモデルによってグラフの長距離依存性をキャプチャすることを提案する。 LazyGNNは、ミニバッチのLazyGNNの開発を通じてさらに加速するために、既存のスケーラブルなアプローチ(サンプリング方法など)と互換性がある。総合的な実験は、大規模なベンチマークで優れた予測性能とスケーラビリティを示す。
論文参考訳（メタデータ） (2023-02-03T02:33:07Z)
A Comprehensive Study on Large-Scale Graph Training: Benchmarking and Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文参考訳（メタデータ） (2022-10-14T03:43:05Z)
MGG: Accelerating Graph Neural Networks with Fine-grained intra-kernel Communication-Computation Pipelining on Multi-GPU Platforms [28.25823488936712]
マルチGPUプラットフォーム上でのフルグラフGNNを高速化するシステム設計であるMGGを提案する。 MGGの中核は、GPUカーネル内での微粒な計算通信オーバラップを容易にする、新しい動的ソフトウェアパイプラインである。 MGGは様々な設定で最先端のフルグラフGNNシステムより優れている。
論文参考訳（メタデータ） (2022-09-14T17:32:28Z)
EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。 1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文参考訳（メタデータ） (2022-06-21T17:59:56Z)
BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and Preprocessing [0.0]
グラフニューラルネットワーク(GNN)は、ディープニューラルネットワーク(DNN)の成功を非ユークリッドグラフデータに拡張した。既存のシステムは、数十億のノードとエッジを持つ巨大なグラフをGPUでトレーニングする非効率である。本稿では,ボトルネックに対処するための分散GNN学習システムであるBGLを提案する。
論文参考訳（メタデータ） (2021-12-16T00:37:37Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
Adaptive Filters and Aggregator Fusion for Efficient Graph Convolutions [11.769185588579488]
本稿では,アクセル実装に適した特性とともに,メモリ消費と遅延を低減した最先端性能を示す。提案手法は,エッジ数に比例するメモリを必要とする競合手法とは対照的に,グラフ内の頂点数に比例するメモリを用いる。 GNNが表現力を大幅に高める技術であるアグリゲーター融合を提案し、標準のスパース行列乗算よりも19%の遅延がわずかに増加している。
論文参考訳（メタデータ） (2021-04-03T20:54:36Z)
A Unified Lottery Ticket Hypothesis for Graph Neural Networks [82.31087406264437]
本稿では,グラフ隣接行列とモデルの重み付けを同時に行う統一GNNスペーシフィケーション(UGS)フレームワークを提案する。グラフ宝くじ(GLT)をコアサブデータセットとスパースサブネットワークのペアとして定義することにより、人気のある宝くじチケット仮説を初めてGNNsにさらに一般化します。
論文参考訳（メタデータ） (2021-02-12T21:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。