論文の概要: DiskGNN: Bridging I/O Efficiency and Model Accuracy for Out-of-Core GNN Training
- arxiv url: http://arxiv.org/abs/2405.05231v1
- Date: Wed, 8 May 2024 17:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 18:41:08.858961
- Title: DiskGNN: Bridging I/O Efficiency and Model Accuracy for Out-of-Core GNN Training
- Title(参考訳): DiskGNN: コア外のGNNトレーニングにおけるI/O効率とモデル精度
- Authors: Renjie Liu, Yichuan Wang, Xiao Yan, Zhenkun Cai, Minjie Wang, Haitian Jiang, Bo Tang, Jinyang Li,
- Abstract要約: グラフニューラルネットワーク(GNN)は、グラフデータに特化した機械学習モデルであり、多くのアプリケーションで広く利用されている。
DiskGNNは、モデル精度を損なうことなく、高いI/O効率と高速なトレーニングを実現する。
我々はDikGNNとGinexとMariusGNNを比較した。
- 参考スコア(独自算出の注目度): 12.945647145403438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph neural networks (GNNs) are machine learning models specialized for graph data and widely used in many applications. To train GNNs on large graphs that exceed CPU memory, several systems store data on disk and conduct out-of-core processing. However, these systems suffer from either read amplification when reading node features that are usually smaller than a disk page or degraded model accuracy by treating the graph as disconnected partitions. To close this gap, we build a system called DiskGNN, which achieves high I/O efficiency and thus fast training without hurting model accuracy. The key technique used by DiskGNN is offline sampling, which helps decouple graph sampling from model computation. In particular, by conducting graph sampling beforehand, DiskGNN acquires the node features that will be accessed by model computation, and such information is utilized to pack the target node features contiguously on disk to avoid read amplification. Besides, \name{} also adopts designs including four-level feature store to fully utilize the memory hierarchy to cache node features and reduce disk access, batched packing to accelerate the feature packing process, and pipelined training to overlap disk access with other operations. We compare DiskGNN with Ginex and MariusGNN, which are state-of-the-art systems for out-of-core GNN training. The results show that DiskGNN can speed up the baselines by over 8x while matching their best model accuracy.
- Abstract(参考訳): グラフニューラルネットワーク(GNN)は、グラフデータに特化した機械学習モデルであり、多くのアプリケーションで広く利用されている。
CPUメモリを超える大きなグラフ上でGNNをトレーニングするために、いくつかのシステムはデータをディスクに格納し、コア外処理を実行する。
しかしながら、これらのシステムは、通常ディスクページよりも小さいノード特徴を読み込むときの読み出し増幅や、グラフを切断されたパーティションとして扱うことでモデルの精度の低下に悩まされる。
このギャップを埋めるため、モデル精度を損なうことなく高いI/O効率と高速トレーニングを実現するDiskGNNというシステムを構築した。
DiskGNNが使用している重要なテクニックはオフラインサンプリングであり、モデル計算からグラフサンプリングを分離するのに役立つ。
特に、事前にグラフサンプリングを行うことにより、DiskGNNはモデル計算によってアクセスされるノード特徴を取得し、そのような情報を用いて、対象ノード特徴をディスク上に連続的にパックし、読み出し増幅を回避する。
さらに、メモリ階層を完全に活用してノード機能をキャッシュし、ディスクアクセスを減らすための4レベル機能ストア、機能パックプロセスを高速化するためのバッチパッケージング、他の操作とディスクアクセスを重複させるパイプライントレーニングなどのデザインも採用されている。
我々はDikGNNとGinexとMariusGNNを比較した。
その結果、DiskGNNは最高のモデル精度を保ちながら、ベースラインを8倍高速化できることがわかった。
関連論文リスト
- LSM-GNN: Large-scale Storage-based Multi-GPU GNN Training by Optimizing Data Transfer Scheme [12.64360444043247]
グラフニューラルネットワーク(GNN)は、今日ではリコメンデーションシステム、不正検出、ノード/リンク分類タスクで広く使われている。
限られたメモリ容量に対応するため、従来のGNNトレーニングアプローチでは、グラフ分割とシャーディング技術を使用している。
大規模ストレージベースマルチGPUGNNフレームワーク(LSM-GNN)を提案する。
LSM-GNNは、静的ノード情報と動的ノード情報の両方を用いて、キャッシュ空間をインテリジェントに管理するハイブリッドな消去ポリシーを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-21T20:41:39Z) - Reducing Memory Contention and I/O Congestion for Disk-based GNN Training [6.492879435794228]
グラフニューラルネットワーク(GNN)が広く普及している。高次元特徴を持つ大規模グラフが一般的になり、その上でGNNを訓練するのは簡単ではない。
巨大なグラフが与えられた場合、トレーニングプロセス中にグラフ全体のデータをメモリに保持することは困難であるため、サンプルベースのGNNトレーニングでさえ効率的に動作できない。
したがって、メモリとI/Oはディスクベースのトレーニングに不可欠である。
論文 参考訳(メタデータ) (2024-06-20T04:24:51Z) - SpanGNN: Towards Memory-Efficient Graph Neural Networks via Spanning Subgraph Training [14.63975787929143]
グラフニューラルネットワーク(GNN)は、グラフデータを学習する能力に優れています。
フルグラフGNNトレーニングは一般的に精度が高いが、ピークメモリ使用量が多い。
本研究では,SpanGNNと呼ばれるスパンニングサブグラフを用いたメモリ効率のよいGNNトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T13:46:23Z) - Spectral Greedy Coresets for Graph Neural Networks [61.24300262316091]
ノード分類タスクにおける大規模グラフの利用は、グラフニューラルネットワーク(GNN)の現実的な応用を妨げる
本稿では,GNNのグラフコアセットについて検討し,スペクトル埋め込みに基づくエゴグラフの選択により相互依存の問題を回避する。
我々のスペクトルグレディグラフコアセット(SGGC)は、数百万のノードを持つグラフにスケールし、モデル事前学習の必要性を排除し、低ホモフィリーグラフに適用する。
論文 参考訳(メタデータ) (2024-05-27T17:52:12Z) - CATGNN: Cost-Efficient and Scalable Distributed Training for Graph Neural Networks [7.321893519281194]
既存の分散システムは、グラフパーティショニングのためにメモリ内のグラフ全体をロードします。
低コストでスケーラブルな分散GNNトレーニングシステムであるCATGNNを提案する。
また、分散GNNトレーニングのためのSPRingという新しいストリーミング分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-02T20:55:39Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and
Preprocessing [0.0]
グラフニューラルネットワーク(GNN)は、ディープニューラルネットワーク(DNN)の成功を非ユークリッドグラフデータに拡張した。
既存のシステムは、数十億のノードとエッジを持つ巨大なグラフをGPUでトレーニングする非効率である。
本稿では,ボトルネックに対処するための分散GNN学習システムであるBGLを提案する。
論文 参考訳(メタデータ) (2021-12-16T00:37:37Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Fast Graph Attention Networks Using Effective Resistance Based Graph
Sparsification [70.50751397870972]
FastGATは、スペクトルスペーシフィケーションを用いて、注目に基づくGNNを軽量にし、入力グラフの最適プルーニングを生成する手法である。
我々は,ノード分類タスクのための大規模実世界のグラフデータセット上でFastGATを実験的に評価した。
論文 参考訳(メタデータ) (2020-06-15T22:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。