論文の概要: Distributed Graph Embedding with Information-Oriented Random Walks
- arxiv url: http://arxiv.org/abs/2303.15702v2
- Date: Sun, 25 Feb 2024 08:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 00:47:47.208999
- Title: Distributed Graph Embedding with Information-Oriented Random Walks
- Title(参考訳): 情報指向ランダムウォークを用いた分散グラフ埋め込み
- Authors: Peng Fang, Arijit Khan, Siqiang Luo, Fang Wang, Dan Feng, Zhenli Li,
Wei Yin, Yuchao Cao
- Abstract要約: グラフ埋め込みはグラフノードを低次元ベクトルにマッピングし、機械学習タスクで広く採用されている。
数十億のエッジグラフを埋め込むためにスケール可能な,汎用的で分散された情報中心のランダムウォークベースのグラフ埋め込みフレームワークであるDistGERを提案する。
D DistGERは2.33x-129x加速、機械間通信の45%削減、下流タスクの10%改善を示す。
- 参考スコア(独自算出の注目度): 16.290803469068145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph embedding maps graph nodes to low-dimensional vectors, and is widely
adopted in machine learning tasks. The increasing availability of billion-edge
graphs underscores the importance of learning efficient and effective
embeddings on large graphs, such as link prediction on Twitter with over one
billion edges. Most existing graph embedding methods fall short of reaching
high data scalability. In this paper, we present a general-purpose,
distributed, information-centric random walk-based graph embedding framework,
DistGER, which can scale to embed billion-edge graphs. DistGER incrementally
computes information-centric random walks. It further leverages a
multi-proximity-aware, streaming, parallel graph partitioning strategy,
simultaneously achieving high local partition quality and excellent workload
balancing across machines. DistGER also improves the distributed Skip-Gram
learning model to generate node embeddings by optimizing the access locality,
CPU throughput, and synchronization efficiency. Experiments on real-world
graphs demonstrate that compared to state-of-the-art distributed graph
embedding frameworks, including KnightKing, DistDGL, and Pytorch-BigGraph,
DistGER exhibits 2.33x-129x acceleration, 45% reduction in cross-machines
communication, and > 10% effectiveness improvement in downstream tasks.
- Abstract(参考訳): グラフ埋め込みはグラフノードを低次元ベクトルにマッピングし、機械学習タスクで広く採用されている。
10億を超えるエッジを持つTwitter上のリンク予測など、大規模なグラフに効率よく効果的な埋め込みを学習することの重要性が強調されている。
既存のグラフ埋め込みメソッドの多くは、高いデータスケーラビリティに到達できない。
本稿では,数十億のエッジグラフを埋め込むためにスケール可能な,汎用的で分散された情報中心のランダムウォークベースのグラフ埋め込みフレームワークDistGERを提案する。
DistGERは情報中心のランダムウォークを漸進的に計算する。
さらに、マルチプロキシ対応、ストリーミング、並列グラフパーティショニング戦略を活用し、高いローカルパーティショニング品質とマシン間のワークロード分散を同時に達成する。
DistGERはまた、分散Skip-Gram学習モデルを改善し、アクセス局所性、CPUスループット、同期効率を最適化することでノード埋め込みを生成する。
実世界のグラフの実験では、KnightKing、DistDGL、Pytorch-BigGraphといった最先端の分散グラフ埋め込みフレームワークと比較して、DistGERは2.33x-129xの加速、マシン間通信の45%の削減、そして、ダウンストリームタスクにおける10%の有効性向上を示している。
関連論文リスト
- GraphScale: A Framework to Enable Machine Learning over Billion-node Graphs [6.418397511692011]
本研究では,大規模グラフデータを分散的に保存・処理するための,教師付き学習と教師なし学習の両方のための統一的なフレームワークを提案する。
私たちの設計における重要な洞察は、データを保存する労働者とトレーニングを行う労働者の分離です。
実験の結果,GraphScaleはGNNとノード埋め込みの両方の分散トレーニングにおいて,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-22T08:09:36Z) - Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - HUGE: Huge Unsupervised Graph Embeddings with TPUs [6.108914274067702]
グラフ埋め込み(Graph Embedding)は、グラフ内のノードを連続的に表現するプロセスである。
高帯域幅メモリを利用した高性能グラフ埋め込みアーキテクチャを提案する。
実・合成大規模データセット上での埋め込み空間の品質を検証する。
論文 参考訳(メタデータ) (2023-07-26T20:29:15Z) - DOTIN: Dropping Task-Irrelevant Nodes for GNNs [119.17997089267124]
最近のグラフ学習アプローチでは、学習のためのグラフのサイズを減らすためのプール戦略が導入されている。
我々はDOTIN(underlineDrunderlineopping underlineTask-underlineIrrelevant underlineNodes)と呼ばれる新しいアプローチを設計し、グラフのサイズを減らす。
本手法は,グラフ分類やグラフ編集距離を含むグラフレベルのタスクにおいて,GATを約50%高速化する。
論文 参考訳(メタデータ) (2022-04-28T12:00:39Z) - Scaling R-GCN Training with Graph Summarization [71.06855946732296]
リレーショナルグラフ畳み込みネットワーク(R-GCN)のトレーニングは、グラフのサイズに合わない。
本研究では,グラフの要約手法を用いてグラフを圧縮する実験を行った。
AIFB, MUTAG, AMデータセットについて妥当な結果を得た。
論文 参考訳(メタデータ) (2022-03-05T00:28:43Z) - GraphTheta: A Distributed Graph Neural Network Learning System With
Flexible Training Strategy [5.466414428765544]
新しい分散グラフ学習システムGraphThetaを紹介します。
複数のトレーニング戦略をサポートし、大規模グラフ上で効率的でスケーラブルな学習を可能にします。
この仕事は、文学における10億規模のネットワーク上で実施された最大のエッジアトリビュートGNN学習タスクを表します。
論文 参考訳(メタデータ) (2021-04-21T14:51:33Z) - Distributed Training of Graph Convolutional Networks using Subgraph
Approximation [72.89940126490715]
本稿では,グラフの複数の分割にまたがる失われる情報をサブグラフ近似スキームで緩和するトレーニング戦略を提案する。
サブグラフ近似アプローチは、分散トレーニングシステムが単一マシン精度で収束するのに役立つ。
論文 参考訳(メタデータ) (2020-12-09T09:23:49Z) - Scaling Graph Neural Networks with Approximate PageRank [64.92311737049054]
GNNにおける情報拡散の効率的な近似を利用したPPRGoモデルを提案する。
高速であることに加えて、PPRGoは本質的にスケーラブルであり、業界設定で見られるような大規模なデータセットに対して、自明に並列化することができる。
このグラフのすべてのノードに対するPPRGoのトレーニングとラベルの予測には1台のマシンで2分未満で、同じグラフ上の他のベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2020-07-03T09:30:07Z) - Wasserstein Embedding for Graph Learning [33.90471037116372]
Wasserstein Embedding for Graph Learning (WEGL)は、グラフ全体をベクトル空間に埋め込むフレームワークである。
グラフ間の類似性をノード埋め込み分布間の類似性の関数として定義する上で,新たな知見を活用する。
各種ベンチマークグラフ固有性予測タスクにおける新しいグラフ埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2020-06-16T18:23:00Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。