論文の概要: Subsampling Graphs with GNN Performance Guarantees
- arxiv url: http://arxiv.org/abs/2502.16703v1
- Date: Sun, 23 Feb 2025 20:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:13.571547
- Title: Subsampling Graphs with GNN Performance Guarantees
- Title(参考訳): GNNパフォーマンス保証付きグラフのサブサンプリング
- Authors: Mika Sarkin Jain, Stefanie Jegelka, Ishani Karmarkar, Luana Ruiz, Ellen Vitercik,
- Abstract要約: グラフデータセットに対する新しいサブサンプリング手法を提案する。
サブサンプルデータ上でのGNNのトレーニングは、完全なデータセットでのトレーニングと比較して、損失のバウンド増加をもたらすことを証明している。
- 参考スコア(独自算出の注目度): 34.32848091746629
- License:
- Abstract: How can we subsample graph data so that a graph neural network (GNN) trained on the subsample achieves performance comparable to training on the full dataset? This question is of fundamental interest, as smaller datasets reduce labeling costs, storage requirements, and computational resources needed for training. Selecting an effective subset is challenging: a poorly chosen subsample can severely degrade model performance, and empirically testing multiple subsets for quality obviates the benefits of subsampling. Therefore, it is critical that subsampling comes with guarantees on model performance. In this work, we introduce new subsampling methods for graph datasets that leverage the Tree Mover's Distance to reduce both the number of graphs and the size of individual graphs. To our knowledge, our approach is the first that is supported by rigorous theoretical guarantees: we prove that training a GNN on the subsampled data results in a bounded increase in loss compared to training on the full dataset. Unlike existing methods, our approach is both model-agnostic, requiring minimal assumptions about the GNN architecture, and label-agnostic, eliminating the need to label the full training set. This enables subsampling early in the model development pipeline (before data annotation, model selection, and hyperparameter tuning) reducing costs and resources needed for storage, labeling, and training. We validate our theoretical results with experiments showing that our approach outperforms existing subsampling methods across multiple datasets.
- Abstract(参考訳): サブサンプルでトレーニングされたグラフニューラルネットワーク(GNN)が、完全なデータセットでのトレーニングに匹敵するパフォーマンスを達成するために、グラフデータをサブサンプルにする方法はありますか?
より小さなデータセットはラベリングコスト、ストレージ要件、トレーニングに必要な計算リソースを減らすため、この問題は基本的な関心事である。
十分に選択されていないサブサンプルは、モデルパフォーマンスを著しく低下させ、品質のために複数のサブセットを経験的にテストすることで、サブサンプルのメリットを損なうことができる。
したがって、サブサンプリングにはモデルパフォーマンスの保証が伴うことが重要である。
本研究では,グラフの個数と個数の両方を削減するために,木モーバー距離を利用したグラフデータセットのサブサンプリング手法を提案する。
我々の知る限り、我々のアプローチは厳密な理論的保証によって支持される最初のものである:我々は、サブサンプルデータ上でのGNNのトレーニングが、完全なデータセットでのトレーニングと比較して、損失の有界増加をもたらすことを証明している。
既存の手法とは異なり、我々のアプローチはモデル非依存であり、GNNアーキテクチャに関する最小限の仮定が必要であり、ラベル非依存であり、完全なトレーニングセットをラベル付けする必要がなくなる。
これにより、モデル開発パイプラインの初期段階(データアノテーション、モデル選択、ハイパーパラメータチューニング)のサブサンプリングが可能になり、ストレージ、ラベル付け、トレーニングに必要なコストとリソースを削減できる。
提案手法は,複数のデータセットにまたがる既存のサブサンプリング手法よりも優れていることを示す実験により,理論的結果を検証する。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - TCGU: Data-centric Graph Unlearning based on Transferable Condensation [36.670771080732486]
Transferable Condensation Graph Unlearning (TCGU)は、ゼロガンスグラフアンラーニングのためのデータ中心のソリューションである。
我々は,TGUが既存のGU手法よりもモデルユーティリティ,未学習効率,未学習効率において優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-09T02:14:40Z) - Group Distributionally Robust Dataset Distillation with Risk Minimization [17.05513836324578]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Diving into Unified Data-Model Sparsity for Class-Imbalanced Graph
Representation Learning [30.23894624193583]
非ユークリッドグラフデータに基づくグラフニューラルネットワーク(GNN)トレーニングは、しばしば比較的高い時間コストに直面する。
グラフ決定(Graph Decantation, GraphDec)と呼ばれる統一されたデータモデル動的疎結合フレームワークを開発し, 大規模なクラス不均衡グラフデータのトレーニングによる課題に対処する。
論文 参考訳(メタデータ) (2022-10-01T01:47:00Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Optimal Propagation for Graph Neural Networks [51.08426265813481]
最適グラフ構造を学習するための二段階最適化手法を提案する。
また、時間的複雑さをさらに軽減するために、低ランク近似モデルについても検討する。
論文 参考訳(メタデータ) (2022-05-06T03:37:00Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Scaling Knowledge Graph Embedding Models [12.757685697180946]
本稿では,リンク予測のための知識グラフ埋め込みモデルの学習方法を提案する。
GNNベースの知識グラフ埋め込みモデルのスケーリングソリューションは、ベンチマークデータセットの16倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2022-01-08T08:34:52Z) - Distributionally Robust Semi-Supervised Learning Over Graphs [68.29280230284712]
グラフ構造化データに対する半教師付き学習(SSL)は、多くのネットワークサイエンスアプリケーションに現れる。
グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。
実際に成功したにも拘わらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。
ノイズ測定によって得られたデータに関連する分布の不確実性によっても問題が発生する。
分散ロバストな学習フレームワークを開発し,摂動に対する定量的ロバスト性を示すモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-20T14:23:54Z) - Efficient Robustness Certificates for Discrete Data: Sparsity-Aware
Randomized Smoothing for Graphs, Images and More [85.52940587312256]
本稿では,初期作業を想定したランダム化平滑化フレームワークに基づくモデル非依存の証明書を提案する。
このアプローチがさまざまなモデル、データセット、タスクに対して有効であることを示します。
論文 参考訳(メタデータ) (2020-08-29T10:09:02Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。