論文の概要: Morphling: Fast, Fused, and Flexible GNN Training at Scale
- arxiv url: http://arxiv.org/abs/2512.01678v2
- Date: Tue, 02 Dec 2025 18:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.102316
- Title: Morphling: Fast, Fused, and Flexible GNN Training at Scale
- Title(参考訳): Morphling: スケールでの高速で、融合し、フレキシブルなGNNトレーニング
- Authors: Anubhab, Rupesh Nasre,
- Abstract要約: このギャップを埋めるために設計されたドメイン固有のコードシンセサイザーであるMorphlingを紹介します。
Morphlingは、高レベルのGNNをOpenMP、MPI、MPI MPIをターゲットにしたポータブルなバックエンド対応実装にコンパイルする。
様々なグラフ構造,特徴次元,空間的レギュレーションにまたがる11個の実世界のデータセット上でMorphlingを評価する。
- 参考スコア(独自算出の注目度): 0.3437656066916039
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Graph Neural Networks (GNNs) present a fundamental hardware challenge by fusing irregular, memory-bound graph traversals with regular, compute-intensive dense matrix operations. While frameworks such as PyTorch Geometric (PyG) and Deep Graph Library (DGL) prioritize high-level usability, they fail to address these divergent execution characteristics. As a result, they rely on generic kernels that suffer from poor cache locality, excessive memory movement, and substantial intermediate allocations. To address these limitations, we present Morphling, a domain-specific code synthesizer designed to bridge this gap. Morphling compiles high-level GNN specifications into portable, backend-specialized implementations targeting OpenMP, CUDA, and MPI. It achieves this by instantiating a library of optimized, architecture-aware primitives tailored to each execution environment. Morphling also incorporates a runtime sparsity-aware execution engine that dynamically selects dense or sparse execution paths using input feature statistics, reducing unnecessary computation on zero-valued entries. We evaluate Morphling on eleven real-world datasets spanning diverse graph structures, feature dimensionalities, and sparsity regimes. The results show that Morphling improves per-epoch training throughput by an average of 20X on CPUs and 19X on GPUs over PyG and DGL, with peak speedups reaching 66X. Morphling's memory-efficient layouts further reduce peak memory consumption by up to 15X, enabling large-scale GNN training on commodity hardware. These findings demonstrate that specialized, architecture-aware code synthesis provides an effective and scalable path toward high-performance GNN execution across diverse parallel and distributed platforms.
- Abstract(参考訳): グラフニューラルネットワーク(GNN)は、不規則でメモリバウンドなグラフトラバーサルと、正規で計算集約的な密度行列演算を融合することで、基本的なハードウェア上の課題を提示する。
PyTorch Geometric (PyG)やDeep Graph Library (DGL)のようなフレームワークは高いレベルのユーザビリティを優先するが、これらの分散実行特性には対処できない。
その結果、キャッシュのローカリティの低さ、過剰なメモリ移動、実質的な中間割り当てに悩まされるジェネリックカーネルに依存している。
これらの制限に対処するために、このギャップを埋めるために設計されたドメイン固有のコードシンセサイザーであるMorphlingを紹介します。
Morphlingは、高レベルのGNN仕様をOpenMP、CUDA、MPIをターゲットとしたポータブルなバックエンド仕様実装にコンパイルする。
それぞれの実行環境に合わせて最適化されたアーキテクチャ対応プリミティブのライブラリをインスタンス化する。
Morphlingはまた、入力特徴統計を用いて、高密度またはスパースな実行パスを動的に選択し、ゼロ値のエントリに対する不要な計算を減らすランタイムスペーサ対応実行エンジンも組み込んでいる。
様々なグラフ構造,特徴次元,空間的レギュレーションにまたがる11個の実世界のデータセット上でMorphlingを評価する。
その結果,MorphlingはCPU上で平均20倍,GPU上ではPyGとDGLで平均19倍,ピーク速度は66倍に向上した。
Morphlingのメモリ効率の高いレイアウトにより、ピークメモリ使用量を最大15倍に削減し、コモディティハードウェア上での大規模なGNNトレーニングを可能にした。
これらの結果から,アーキテクチャを意識したコード合成が,多種多様な並列分散プラットフォーム上での高性能なGNN実行を実現するための,効率的かつスケーラブルな経路を提供することが示された。
関連論文リスト
- MaxK-GNN: Extremely Fast GPU Kernel Design for Accelerating Graph Neural Networks Training [7.193336207798203]
アルゴリズムとシステム革新を統合した高性能GPUトレーニングシステムMaxK-GNNを提案する。
実験により、マックスK-GNNシステムは、アムダールの法則に従って理論的なスピードアップ限界に接近できることが示された。
我々はSOTA GNNに匹敵する精度を達成したが、Redditでは3.22/4.24倍のスピードアップ(理論上の限界vs, 5.52/7.27倍)を実現した。
論文 参考訳(メタデータ) (2023-12-14T05:00:49Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - BlockGNN: Towards Efficient GNN Acceleration Using Block-Circulant
Weight Matrices [9.406007544032848]
グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータを分析するための最先端のアルゴリズムです。
リアルタイムにGNNを推論する方法は、リソース制限のあるエッジコンピューティングプラットフォームでは難しい問題となっている。
効率的なGNN加速を実現するソフトウェアハードウェアの共同設計手法であるBlockGNNを提案する。
論文 参考訳(メタデータ) (2021-04-13T14:09:22Z) - Adaptive Filters and Aggregator Fusion for Efficient Graph Convolutions [11.769185588579488]
本稿では,アクセル実装に適した特性とともに,メモリ消費と遅延を低減した最先端性能を示す。
提案手法は,エッジ数に比例するメモリを必要とする競合手法とは対照的に,グラフ内の頂点数に比例するメモリを用いる。
GNNが表現力を大幅に高める技術であるアグリゲーター融合を提案し、標準のスパース行列乗算よりも19%の遅延がわずかに増加している。
論文 参考訳(メタデータ) (2021-04-03T20:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。