論文の概要: GraphGen+: Advancing Distributed Subgraph Generation and Graph Learning On Industrial Graphs
- arxiv url: http://arxiv.org/abs/2503.06212v1
- Date: Sat, 08 Mar 2025 13:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:33.638829
- Title: GraphGen+: Advancing Distributed Subgraph Generation and Graph Learning On Industrial Graphs
- Title(参考訳): GraphGen+: 分散サブグラフ生成とグラフ学習をインダストリアルグラフ上で実現する
- Authors: Yue Jin, Yongchao Liu, Chuntao Hong,
- Abstract要約: グラフベースの計算は、グラフが数兆のエッジにスケールできる幅広いアプリケーションにおいて不可欠である。
既存のソリューションは大きなトレードオフに直面している。オンラインサブグラフ生成は単一のマシンに限定されており、結果としてパフォーマンスのボトルネックが深刻になる。
分散サブグラフ生成とインメモリグラフ学習を同期するフレームワークである textbfGraphGen+ を提案する。
- 参考スコア(独自算出の注目度): 9.024357901512928
- License:
- Abstract: Graph-based computations are crucial in a wide range of applications, where graphs can scale to trillions of edges. To enable efficient training on such large graphs, mini-batch subgraph sampling is commonly used, which allows training without loading the entire graph into memory. However, existing solutions face significant trade-offs: online subgraph generation, as seen in frameworks like DGL and PyG, is limited to a single machine, resulting in severe performance bottlenecks, while offline precomputed subgraphs, as in GraphGen, improve sampling efficiency but introduce large storage overhead and high I/O costs during training. To address these challenges, we propose \textbf{GraphGen+}, an integrated framework that synchronizes distributed subgraph generation with in-memory graph learning, eliminating the need for external storage while significantly improving efficiency. GraphGen+ achieves a \textbf{27$\times$} speedup in subgraph generation compared to conventional SQL-like methods and a \textbf{1.3$\times$} speedup over GraphGen, supporting training on 1 million nodes per iteration and removing the overhead associated with precomputed subgraphs, making it a scalable and practical solution for industry-scale graph learning.
- Abstract(参考訳): グラフベースの計算は、グラフが数兆のエッジにスケールできる幅広いアプリケーションにおいて不可欠である。
このような大きなグラフの効率的なトレーニングを可能にするために、ミニバッチサブグラフサンプリングが一般的であり、グラフ全体をメモリにロードせずにトレーニングできる。
オンラインサブグラフ生成は、DGLやPyGのようなフレームワークで見られるように、単一のマシンに限定されており、パフォーマンス上の重大なボトルネックが発生している。
これらの課題に対処するため,分散サブグラフ生成とインメモリグラフ学習を同期する統合フレームワークである \textbf{GraphGen+} を提案する。
GraphGen+は、従来のSQLライクなメソッドと比較すると、サブグラフ生成における \textbf{27$\times$} のスピードアップと、GraphGen上の \textbf{1.3$\times$} のスピードアップを実現している。
関連論文リスト
- Exact Acceleration of Subgraph Graph Neural Networks by Eliminating Computation Redundancy [49.233339837170895]
本稿では,Ego-Nets-Fit-All(ENFA)について述べる。
ENFAはストレージ容量を29.0%から84.5%削減し、トレーニング効率を最大1.66倍向上させることができる。
論文 参考訳(メタデータ) (2024-12-24T03:21:03Z) - GraphScale: A Framework to Enable Machine Learning over Billion-node Graphs [6.418397511692011]
本研究では,大規模グラフデータを分散的に保存・処理するための,教師付き学習と教師なし学習の両方のための統一的なフレームワークを提案する。
私たちの設計における重要な洞察は、データを保存する労働者とトレーニングを行う労働者の分離です。
実験の結果,GraphScaleはGNNとノード埋め込みの両方の分散トレーニングにおいて,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-22T08:09:36Z) - Learning on Large Graphs using Intersecting Communities [13.053266613831447]
MPNNは、各ノードの隣人からのメッセージを集約することで、入力グラフ内の各ノードの表現を反復的に更新する。
MPNNは、あまりスパースではないため、すぐに大きなグラフの禁止になるかもしれない。
本稿では,入力グラフを交差するコミュニティグラフ (ICG) として近似することを提案する。
論文 参考訳(メタデータ) (2024-05-31T09:26:26Z) - Distributed Graph Embedding with Information-Oriented Random Walks [16.290803469068145]
グラフ埋め込みはグラフノードを低次元ベクトルにマッピングし、機械学習タスクで広く採用されている。
数十億のエッジグラフを埋め込むためにスケール可能な,汎用的で分散された情報中心のランダムウォークベースのグラフ埋め込みフレームワークであるDistGERを提案する。
D DistGERは2.33x-129x加速、機械間通信の45%削減、下流タスクの10%改善を示す。
論文 参考訳(メタデータ) (2023-03-28T03:11:21Z) - Scalable Graph Convolutional Network Training on Distributed-Memory
Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。
グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。
本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-09T17:51:13Z) - DOTIN: Dropping Task-Irrelevant Nodes for GNNs [119.17997089267124]
最近のグラフ学習アプローチでは、学習のためのグラフのサイズを減らすためのプール戦略が導入されている。
我々はDOTIN(underlineDrunderlineopping underlineTask-underlineIrrelevant underlineNodes)と呼ばれる新しいアプローチを設計し、グラフのサイズを減らす。
本手法は,グラフ分類やグラフ編集距離を含むグラフレベルのタスクにおいて,GATを約50%高速化する。
論文 参考訳(メタデータ) (2022-04-28T12:00:39Z) - Scaling R-GCN Training with Graph Summarization [71.06855946732296]
リレーショナルグラフ畳み込みネットワーク(R-GCN)のトレーニングは、グラフのサイズに合わない。
本研究では,グラフの要約手法を用いてグラフを圧縮する実験を行った。
AIFB, MUTAG, AMデータセットについて妥当な結果を得た。
論文 参考訳(メタデータ) (2022-03-05T00:28:43Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Distributed Training of Graph Convolutional Networks using Subgraph
Approximation [72.89940126490715]
本稿では,グラフの複数の分割にまたがる失われる情報をサブグラフ近似スキームで緩和するトレーニング戦略を提案する。
サブグラフ近似アプローチは、分散トレーニングシステムが単一マシン精度で収束するのに役立つ。
論文 参考訳(メタデータ) (2020-12-09T09:23:49Z) - Multilevel Graph Matching Networks for Deep Graph Similarity Learning [79.3213351477689]
グラフ構造オブジェクト間のグラフ類似性を計算するためのマルチレベルグラフマッチングネットワーク(MGMN)フレームワークを提案する。
標準ベンチマークデータセットの欠如を補うため、グラフグラフ分類とグラフグラフ回帰タスクの両方のためのデータセットセットを作成し、収集した。
総合的な実験により、MGMNはグラフグラフ分類とグラフグラフ回帰タスクの両方において、最先端のベースラインモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-07-08T19:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。