論文の概要: Learning Massive Graph Embeddings on a Single Machine
- arxiv url: http://arxiv.org/abs/2101.08358v1
- Date: Wed, 20 Jan 2021 23:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:14:04.927301
- Title: Learning Massive Graph Embeddings on a Single Machine
- Title(参考訳): 単一マシン上の巨大なグラフ埋め込みを学習する
- Authors: Jason Mohoney, Roger Waleffe, Yiheng Xu, Theodoros Rekatsinas,
Shivaram Venkataraman
- Abstract要約: グラフ埋め込みはグラフの各ノード(および/またはエッジタイプ)に対する固定長ベクトル表現である。
大規模グラフの埋め込みを学習するための現在のシステムは、データ移動によってボトルネックとなる。
グラフ埋め込みの効率的な学習システムであるgaiusを提案する。
- 参考スコア(独自算出の注目度): 11.949017733445624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new framework for computing the embeddings of large-scale graphs
on a single machine. A graph embedding is a fixed length vector representation
for each node (and/or edge-type) in a graph and has emerged as the de-facto
approach to apply modern machine learning on graphs. We identify that current
systems for learning the embeddings of large-scale graphs are bottlenecked by
data movement, which results in poor resource utilization and inefficient
training. These limitations require state-of-the-art systems to distribute
training across multiple machines. We propose Gaius, a system for efficient
training of graph embeddings that leverages partition caching and buffer-aware
data orderings to minimize disk access and interleaves data movement with
computation to maximize utilization. We compare Gaius against two
state-of-the-art industrial systems on a diverse array of benchmarks. We
demonstrate that Gaius achieves the same level of accuracy but is up to one
order-of magnitude faster. We also show that Gaius can scale training to
datasets an order of magnitude beyond a single machine's GPU and CPU memory
capacity, enabling training of configurations with more than a billion edges
and 550GB of total parameters on a single AWS P3.2xLarge instance.
- Abstract(参考訳): 大規模グラフの埋め込みを1台のマシンで計算するための新しいフレームワークを提案する。
グラフ埋め込みはグラフの各ノード(および/またはエッジタイプ)に対する固定長ベクトル表現であり、グラフに現代的な機械学習を適用するデファクトアプローチとして登場した。
大規模グラフの埋め込みを学習するための現在のシステムは,データ移動によってボトルネックとなり,リソース利用率の低下と非効率なトレーニングにつながる。
これらの制限は、最先端のシステムが複数のマシンにトレーニングを分散する必要がある。
分割キャッシュとバッファアウェアデータ順序付けを利用してディスクアクセスを最小化し,データ移動を計算でインターリーブし,利用を最大化するグラフ埋め込みの効率的なトレーニングシステムであるgaiusを提案する。
gaiusと最先端の2つの産業システムを比較し,様々なベンチマークを行った。
ガイウスは同じレベルの精度を達成できるが、最大で1桁高速であることを示す。
また、Gaiusは、単一のマシンのGPUとCPUメモリ容量を超える規模のデータセットにトレーニングをスケールできることを示し、単一のAWS P3.2xLargeインスタンス上で10億以上のエッジと550GBのパラメータを持つ構成のトレーニングを可能にした。
関連論文リスト
- GraphScale: A Framework to Enable Machine Learning over Billion-node Graphs [6.418397511692011]
本研究では,大規模グラフデータを分散的に保存・処理するための,教師付き学習と教師なし学習の両方のための統一的なフレームワークを提案する。
私たちの設計における重要な洞察は、データを保存する労働者とトレーニングを行う労働者の分離です。
実験の結果,GraphScaleはGNNとノード埋め込みの両方の分散トレーニングにおいて,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-22T08:09:36Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Learning Large Graph Property Prediction via Graph Segment Training [61.344814074335304]
本稿では,メモリフットプリントを一定にして大きなグラフ特性予測を学習できる汎用フレームワークを提案する。
バックプロパゲーションのためにサンプリングされていないセグメントに対する埋め込みを効率的に得るために,歴史的埋め込みテーブルを導入することにより,GSTパラダイムを洗練する。
実験の結果,GST-EFDはメモリ効率が良く,高速でありながら,通常の全グラフ学習システムよりもテスト精度が若干向上していることがわかった。
論文 参考訳(メタデータ) (2023-05-21T02:53:25Z) - Distributed Graph Embedding with Information-Oriented Random Walks [16.290803469068145]
グラフ埋め込みはグラフノードを低次元ベクトルにマッピングし、機械学習タスクで広く採用されている。
数十億のエッジグラフを埋め込むためにスケール可能な,汎用的で分散された情報中心のランダムウォークベースのグラフ埋め込みフレームワークであるDistGERを提案する。
D DistGERは2.33x-129x加速、機械間通信の45%削減、下流タスクの10%改善を示す。
論文 参考訳(メタデータ) (2023-03-28T03:11:21Z) - Scalable Graph Convolutional Network Training on Distributed-Memory
Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。
グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。
本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-09T17:51:13Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - Scaling R-GCN Training with Graph Summarization [71.06855946732296]
リレーショナルグラフ畳み込みネットワーク(R-GCN)のトレーニングは、グラフのサイズに合わない。
本研究では,グラフの要約手法を用いてグラフを圧縮する実験を行った。
AIFB, MUTAG, AMデータセットについて妥当な結果を得た。
論文 参考訳(メタデータ) (2022-03-05T00:28:43Z) - Scalable Graph Embedding LearningOn A Single GPU [18.142879223260785]
本稿では,大規模グラフの埋め込み学習の課題に対処する,ハイブリッドCPU-GPUフレームワークを提案する。
我々のシステムは、単一のマシンの総メモリ容量より桁違いに大きいデータセットにトレーニングをスケールできることを示します。
論文 参考訳(メタデータ) (2021-10-13T19:09:33Z) - Distributed Training of Graph Convolutional Networks using Subgraph
Approximation [72.89940126490715]
本稿では,グラフの複数の分割にまたがる失われる情報をサブグラフ近似スキームで緩和するトレーニング戦略を提案する。
サブグラフ近似アプローチは、分散トレーニングシステムが単一マシン精度で収束するのに役立つ。
論文 参考訳(メタデータ) (2020-12-09T09:23:49Z) - Scaling Graph Neural Networks with Approximate PageRank [64.92311737049054]
GNNにおける情報拡散の効率的な近似を利用したPPRGoモデルを提案する。
高速であることに加えて、PPRGoは本質的にスケーラブルであり、業界設定で見られるような大規模なデータセットに対して、自明に並列化することができる。
このグラフのすべてのノードに対するPPRGoのトレーニングとラベルの予測には1台のマシンで2分未満で、同じグラフ上の他のベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2020-07-03T09:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。