論文の概要: GraphSculptor: Sculpting Pre-training Coreset for Graph Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2605.01310v1
- Date: Sat, 02 May 2026 07:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.698534
- Title: GraphSculptor: Sculpting Pre-training Coreset for Graph Self-supervised Learning
- Title(参考訳): GraphSculptor: グラフ自己教師型学習のための事前学習コアセットの抽出
- Authors: Chuang Liu, Zelin Yao, Xueqi Ma, Luzhi Wang, Mukun Chen, Pinghua Xu, Wenbin Hu,
- Abstract要約: グラフの自己教師型学習は通常、大規模なラベルなしデータセットに依存します。
コアセット構築の事前学習のためのGraphSculptorを導入する。
10%のコアセットは99.6%のフルデータ性能を実現し、トレーニング前の時間を90%近く短縮する。
- 参考スコア(独自算出の注目度): 8.07575845153502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph self-supervised learning typically relies on large-scale unlabeled datasets, heavily inflating computational costs. However, empirical evidence suggests that these datasets contain substantial redundancy-our analysis reveals that uniformly subsampling 50% of graphs retains over 96% of downstream performance. To exploit this redundancy, we introduce GraphSculptor for pre-training coreset construction. Unlike methods dependent on additional training-time signals or limited solely to topological statistics, GraphSculptor provides a label-free solution that constructs coresets via two complementary perspectives: intrinsic structure and contextual semantics. Concretely, structural diversity is quantified using intrinsic graph statistics, yielding a structural feature vector for each graph, while semantic diversity is captured by utilizing a pre-trained language model to encode descriptions generated via graph-to-text. GraphSculptor integrates these signals into a unified metric space and performs cluster-aware selection to preserve joint structural-semantic diversity. We further derive a theoretical bound on the loss gap between coreset and full-data pre-training, offering theoretical motivation for our selection formulation. Extensive experiments demonstrate that GraphSculptor effectively sculpts the dataset: a 10% coreset achieves 99.6% of full-data performance while reducing pre-training time by nearly 90%, offering a scalable solution for data-efficient graph pre-training.
- Abstract(参考訳): グラフの自己教師型学習は通常、大規模にラベル付けされていないデータセットに依存し、計算コストを膨らませる。
しかしながら、これらのデータセットにかなりの冗長性分析が含まれているという実証的な証拠は、グラフの50%を均一にサブサンプリングすることで、下流のパフォーマンスの96%以上を維持できることを示している。
この冗長性を活用するために,コアセット構築の事前学習のためのGraphSculptorを導入する。
追加の訓練時間信号に依存するメソッドや、トポロジカルな統計にのみ依存するメソッドとは異なり、GraphSculptorは2つの補完的な視点(内在的構造と文脈意味論)を通じてコアセットを構築するラベルなしのソリューションを提供する。
具体的には、構造的多様性を内在的なグラフ統計を用いて定量化し、グラフ毎に構造的特徴ベクトルを生成する一方で、事前訓練された言語モデルを用いて、グラフからテキストへ生成した記述をエンコードすることで意味的多様性を捉える。
GraphSculptorは、これらの信号を統一されたメートル法空間に統合し、クラスタアウェアの選択を行い、共同構造とセマンティックの多様性を維持する。
さらに、コアセットとフルデータ事前学習の間の損失ギャップの理論的境界を導出し、選択の定式化に理論的動機を与える。
10%のコアセットは、完全なデータパフォーマンスの99.6%を達成し、事前トレーニング時間を90%近く削減し、データ効率のよいグラフ事前トレーニングのためのスケーラブルなソリューションを提供する。
関連論文リスト
- Training A Foundation Model to Represent Graphs as Vectors [24.592499205332413]
本稿では,任意のグラフを意味情報を保存するベクトルとして表現できるグラフ基盤モデルを訓練することを目的とする。
提案モデルの有効性を裏付ける理論的な一般化を提供する。
数ショットのグラフ分類とグラフクラスタリングによる実験結果から,我々のモデルは強いベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-02-04T06:06:28Z) - Graph Data Condensation via Self-expressive Graph Structure Reconstruction [7.4525875528900665]
我々は textbfSelf-presentive Graph Structure textbfReconstruction による textbfGraph Data textbfCondensation という新しいフレームワークを紹介した。
提案手法は,元のグラフ構造を凝縮過程に明示的に組み込んで,凝縮ノード間の不規則な相互依存性を捕捉する。
論文 参考訳(メタデータ) (2024-03-12T03:54:25Z) - GraphGLOW: Universal and Generalizable Structure Learning for Graph
Neural Networks [72.01829954658889]
本稿では,この新たな問題設定の数学的定義を紹介する。
一つのグラフ共有構造学習者と複数のグラフ固有GNNを協調する一般的なフレームワークを考案する。
十分に訓練された構造学習者は、微調整なしで、目に見えない対象グラフの適応的な構造を直接生成することができる。
論文 参考訳(メタデータ) (2023-06-20T03:33:22Z) - Bures-Wasserstein Means of Graphs [60.42414991820453]
本研究では,スムーズなグラフ信号分布の空間への埋め込みを通じて,グラフ平均を定義する新しいフレームワークを提案する。
この埋め込み空間において平均を求めることにより、構造情報を保存する平均グラフを復元することができる。
我々は,新しいグラフの意味の存在と特異性を確立し,それを計算するための反復アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-05-31T11:04:53Z) - Spectral Augmentations for Graph Contrastive Learning [50.149996923976836]
コントラスト学習は、監督の有無にかかわらず、表現を学習するための第一の方法として現れてきた。
近年の研究では、グラフ表現学習における事前学習の有用性が示されている。
本稿では,グラフの対照的な目的に対する拡張を構築する際に,候補のバンクを提供するためのグラフ変換操作を提案する。
論文 参考訳(メタデータ) (2023-02-06T16:26:29Z) - EGRC-Net: Embedding-induced Graph Refinement Clustering Network [66.44293190793294]
埋め込みによるグラフリファインメントクラスタリングネットワーク (EGRC-Net) という新しいグラフクラスタリングネットワークを提案する。
EGRC-Netは学習した埋め込みを利用して初期グラフを適応的に洗練し、クラスタリング性能を向上させる。
提案手法はいくつかの最先端手法より一貫して優れている。
論文 参考訳(メタデータ) (2022-11-19T09:08:43Z) - Multilayer Clustered Graph Learning [66.94201299553336]
我々は、観測された層を代表グラフに適切に集約するために、データ忠実度用語として対照的な損失を用いる。
実験により,本手法がクラスタクラスタw.r.tに繋がることが示された。
クラスタリング問題を解くためのクラスタリングアルゴリズムを学習する。
論文 参考訳(メタデータ) (2020-10-29T09:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。