論文の概要: IGB: Addressing The Gaps In Labeling, Features, Heterogeneity, and Size
of Public Graph Datasets for Deep Learning Research
- arxiv url: http://arxiv.org/abs/2302.13522v2
- Date: Wed, 21 Jun 2023 23:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 17:31:48.854060
- Title: IGB: Addressing The Gaps In Labeling, Features, Heterogeneity, and Size
of Public Graph Datasets for Deep Learning Research
- Title(参考訳): igb: ディープラーニング研究のための公開グラフデータセットのラベル付け,特徴,多様性,サイズの違いに対処する
- Authors: Arpandeep Khatua and Vikram Sharma Mailthody and Bhagyashree Taleka
and Tengfei Ma and Xiang Song and Wen-mei Hwu
- Abstract要約: グラフニューラルネットワーク(GNN)は、さまざまな現実的、挑戦的なアプリケーションに対して高い可能性を示している。
GNN研究の大きな障害の1つは、大規模なフレキシブルデータセットの欠如である。
イリノイグラフベンチマーク(IGB)は、開発者がGNNモデルをトレーニング、精査、評価するために使用できる研究データセットツールである。
- 参考スコア(独自算出の注目度): 14.191338008898963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph neural networks (GNNs) have shown high potential for a variety of
real-world, challenging applications, but one of the major obstacles in GNN
research is the lack of large-scale flexible datasets. Most existing public
datasets for GNNs are relatively small, which limits the ability of GNNs to
generalize to unseen data. The few existing large-scale graph datasets provide
very limited labeled data. This makes it difficult to determine if the GNN
model's low accuracy for unseen data is inherently due to insufficient training
data or if the model failed to generalize. Additionally, datasets used to train
GNNs need to offer flexibility to enable a thorough study of the impact of
various factors while training GNN models.
In this work, we introduce the Illinois Graph Benchmark (IGB), a research
dataset tool that the developers can use to train, scrutinize and
systematically evaluate GNN models with high fidelity. IGB includes both
homogeneous and heterogeneous academic graphs of enormous sizes, with more than
40% of their nodes labeled. Compared to the largest graph datasets publicly
available, the IGB provides over 162X more labeled data for deep learning
practitioners and developers to create and evaluate models with higher
accuracy. The IGB dataset is a collection of academic graphs designed to be
flexible, enabling the study of various GNN architectures, embedding generation
techniques, and analyzing system performance issues for node classification
tasks. IGB is open-sourced, supports DGL and PyG frameworks, and comes with
releases of the raw text that we believe foster emerging language models and
GNN research projects. An early public version of IGB is available at
https://github.com/IllinoisGraphBenchmark/IGB-Datasets.
- Abstract(参考訳): グラフニューラルネットワーク(GNN)は、さまざまな現実的かつ挑戦的なアプリケーションに対して高い可能性を示しているが、GNN研究の大きな障害のひとつは、大規模なフレキシブルデータセットの欠如である。
GNNの既存の公開データセットは比較的小さく、GNNが見えないデータに一般化する能力を制限する。
数少ない大規模グラフデータセットは非常に限られたラベル付きデータを提供する。
これにより、未確認データに対するGNNモデルの低い精度が本質的に不十分なトレーニングデータによるものなのか、あるいはモデルを一般化できなかったのかを判断することが困難になる。
さらに、GNNのトレーニングに使用されるデータセットは、GNNモデルをトレーニングしている間に、さまざまな要因の影響を徹底的に調査するための柔軟性を提供する必要がある。
In this work, we introduced the Illinois Graph Benchmark (IGB)は、開発者が高い忠実度でGNNモデルをトレーニング、精査、体系的に評価するために使用できる研究データセットツールである。
IGBには、巨大なサイズの均質グラフと異質グラフの両方が含まれており、その40%以上がラベル付けされている。
IGBは、一般公開されている最大のグラフデータセットと比較して、ディープラーニングの実践者や開発者がより高い精度でモデルを作成し評価するためのラベル付きデータ162倍以上を提供する。
igbデータセットはフレキシブルに設計された学術グラフの集合であり、様々なgnnアーキテクチャの研究、組み込み生成技術、ノード分類タスクにおけるシステムパフォーマンス問題の解析を可能にする。
IGBはオープンソースで、DGLとPyGフレームワークをサポートしています。
IGBの初期公開版はhttps://github.com/IllinoisGraphBenchmark/IGB-Datasetsで入手できる。
関連論文リスト
- Spectral Greedy Coresets for Graph Neural Networks [61.24300262316091]
ノード分類タスクにおける大規模グラフの利用は、グラフニューラルネットワーク(GNN)の現実的な応用を妨げる
本稿では,GNNのグラフコアセットについて検討し,スペクトル埋め込みに基づくエゴグラフの選択により相互依存の問題を回避する。
我々のスペクトルグレディグラフコアセット(SGGC)は、数百万のノードを持つグラフにスケールし、モデル事前学習の必要性を排除し、低ホモフィリーグラフに適用する。
論文 参考訳(メタデータ) (2024-05-27T17:52:12Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - Geodesic Graph Neural Network for Efficient Graph Representation
Learning [34.047527874184134]
我々はGeodesic GNN(GDGNN)と呼ばれる効率的なGNNフレームワークを提案する。
ラベル付けなしでノード間の条件付き関係をモデルに注入する。
ジオデシック表現を前提としたGDGNNは、通常のGNNよりもはるかにリッチな構造情報を持つノード、リンク、グラフ表現を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T02:02:35Z) - Graph Generative Model for Benchmarking Graph Neural Networks [73.11514658000547]
本稿では,プライバシ制御により実世界のグラフの分布を学習し,再現する新しいグラフ生成モデルを提案する。
我々のモデルは、GNNモデルのベンチマークに効果的に使用できる大規模な実世界のグラフの、プライバシ制御された合成代用をうまく生成することができる。
論文 参考訳(メタデータ) (2022-07-10T06:42:02Z) - Graph4Rec: A Universal Toolkit with Graph Neural Networks for
Recommender Systems [5.030752995016985]
Graph4RecはGNNモデルをトレーニングするためのパラダイムを統一する汎用ツールキットである。
我々は、異なるGNNモデルの性能を比較するために、体系的で包括的な実験を行う。
論文 参考訳(メタデータ) (2021-12-02T07:56:13Z) - Bag of Tricks for Training Deeper Graph Neural Networks: A Comprehensive
Benchmark Study [100.27567794045045]
ディープグラフニューラルネットワーク(GNN)のトレーニングは、非常に難しい。
我々は、深層GNNの「トリック」を評価するための最初の公正かつ再現可能なベンチマークを示す。
論文 参考訳(メタデータ) (2021-08-24T05:00:37Z) - A Unified Lottery Ticket Hypothesis for Graph Neural Networks [82.31087406264437]
本稿では,グラフ隣接行列とモデルの重み付けを同時に行う統一GNNスペーシフィケーション(UGS)フレームワークを提案する。
グラフ宝くじ(GLT)をコアサブデータセットとスパースサブネットワークのペアとして定義することにより、人気のある宝くじチケット仮説を初めてGNNsにさらに一般化します。
論文 参考訳(メタデータ) (2021-02-12T21:52:43Z) - Graph Random Neural Network for Semi-Supervised Learning on Graphs [36.218650686748546]
グラフニューラルネットワーク(GNN)が広範に研究されているグラフ上での半教師あり学習の問題について検討する。
既存のGNNの多くは、ラベル付きノードが不足している場合、本質的に過度なスムース、非ロバスト性、および弱一般化の制限に悩まされている。
本稿では,これらの問題に対処するシンプルなフレームワークである Graph R NEURAL NETWORKS (GRAND) を提案する。
論文 参考訳(メタデータ) (2020-05-22T09:40:13Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z) - Self-Enhanced GNN: Improving Graph Neural Networks Using Model Outputs [20.197085398581397]
グラフニューラルネットワーク(GNN)は最近、グラフベースのタスクにおける優れたパフォーマンスのために、多くの注目を集めている。
本稿では,既存のGNNモデルの出力を用いて,入力データの品質を向上させる自己強化型GNN(SEG)を提案する。
SEGは、GCN、GAT、SGCといったよく知られたGNNモデルのさまざまなデータセットのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2020-02-18T12:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。