論文の概要: Confidence May Cheat: Self-Training on Graph Neural Networks under
Distribution Shift
- arxiv url: http://arxiv.org/abs/2201.11349v1
- Date: Thu, 27 Jan 2022 07:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 14:08:40.557997
- Title: Confidence May Cheat: Self-Training on Graph Neural Networks under
Distribution Shift
- Title(参考訳): 信頼性: 分散シフト下でのグラフニューラルネットワークの自己評価
- Authors: Hongrui Liu, Binbin Hu, Xiao Wang, Chuan Shi, Zhiqiang Zhang, Jun Zhou
- Abstract要約: 高信頼の未ラベルノードをラベル付けし、トレーニングステップに追加することで、グラフ上での自己学習手法が広く採用されている。
本稿では,従来のラベル付きデータセットの分布を復元する新しい分散検索フレームワーク(DR-GST)を提案する。
5つのベンチマークデータセットの理論的解析と広範な実験は、提案したDR-GSTの有効性を実証している。
- 参考スコア(独自算出の注目度): 39.73304203101909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Convolutional Networks (GCNs) have recently attracted vast interest and
achieved state-of-the-art performance on graphs, but its success could
typically hinge on careful training with amounts of expensive and
time-consuming labeled data. To alleviate labeled data scarcity, self-training
methods have been widely adopted on graphs by labeling high-confidence
unlabeled nodes and then adding them to the training step. In this line, we
empirically make a thorough study for current self-training methods on graphs.
Surprisingly, we find that high-confidence unlabeled nodes are not always
useful, and even introduce the distribution shift issue between the original
labeled dataset and the augmented dataset by self-training, severely hindering
the capability of self-training on graphs. To this end, in this paper, we
propose a novel Distribution Recovered Graph Self-Training framework (DR-GST),
which could recover the distribution of the original labeled dataset.
Specifically, we first prove the equality of loss function in self-training
framework under the distribution shift case and the population distribution if
each pseudo-labeled node is weighted by a proper coefficient. Considering the
intractability of the coefficient, we then propose to replace the coefficient
with the information gain after observing the same changing trend between them,
where information gain is respectively estimated via both dropout variational
inference and dropedge variational inference in DR-GST. However, such a
weighted loss function will enlarge the impact of incorrect pseudo labels. As a
result, we apply the loss correction method to improve the quality of pseudo
labels. Both our theoretical analysis and extensive experiments on five
benchmark datasets demonstrate the effectiveness of the proposed DR-GST, as
well as each well-designed component in DR-GST.
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)は、最近、大きな関心を集め、グラフ上で最先端のパフォーマンスを達成したが、その成功は通常、高価で時間を要するラベル付きデータによる注意深いトレーニングにヒンジする可能性がある。
ラベル付きデータの不足を軽減するために、高信頼なラベル付きノードをラベル付けし、トレーニングステップに追加することで、グラフに自己学習手法が広く採用されている。
本稿では,グラフ上での現在の自己学習手法について実験的に検討する。
驚くべきことに、高信頼の未ラベルノードは必ずしも有用ではなく、自己学習によるラベル付きデータセットと拡張データセットの分散シフトの問題さえも導入し、グラフ上での自己学習の能力を著しく損なうことになる。
そこで本稿では,既存のラベル付きデータセットの分布を復元可能な,新しい分布回復グラフ自己学習フレームワーク(dr-gst)を提案する。
具体的には,各擬似ラベルノードが適切な係数で重み付けされている場合,分布シフトの場合の自己学習フレームワークにおける損失関数の等式と人口分布を最初に証明する。
この係数の抽出性を考慮すると,情報ゲインと情報ゲインを同じ変化傾向を観測し,情報ゲインをDR-GSTのドロップアウト変分推論とドロップエッジ変分推論の両方を用いてそれぞれ推定し,その係数を情報ゲインに置き換えることを提案する。
しかし、そのような重み付き損失関数は、誤った擬似ラベルの影響を大きくする。
その結果,損失補正手法を擬似ラベルの品質向上に適用した。
提案したDR-GSTとDR-GSTの各々のよく設計されたコンポーネントの有効性を示すため、5つのベンチマークデータセットの理論的解析と広範な実験を行った。
関連論文リスト
- Degree Distribution based Spiking Graph Networks for Domain Adaptation [17.924123705983792]
Spiking Graph Networks (SGNs)は、グラフ分類におけるエネルギー消費の課題に対処する能力のために、研究者と業界双方から大きな注目を集めている。
まず、SGNにおけるドメイン適応問題を提案し、Dgree-aware Spiking Graph Domain Adaptation for Classificationという新しいフレームワークを提案する。
The proposed DeSGDA address the spiking graph domain adapt problem by three aspects: node degree-aware Personal spiking representation, adversarial feature distribution alignment, pseudo-label distillation。
論文 参考訳(メタデータ) (2024-10-09T13:45:54Z) - Distribution Consistency based Self-Training for Graph Neural Networks
with Sparse Labels [33.89511660654271]
グラフニューラルネットワーク(GNN)のノード分類は重要な課題である
ラベルなしデータの豊富さを活用するための、広く普及しているフレームワークとして、セルフトレーニングが登場した。
本稿では,情報的かつ分散の相違を認識可能な疑似ラベル付きノードを識別する,新しい分散一貫性グラフ自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T22:07:48Z) - CONVERT:Contrastive Graph Clustering with Reliable Augmentation [110.46658439733106]
信頼性オーグメンテーション(CONVERT)を用いたContrastiVe Graph ClustEringネットワークを提案する。
本手法では,データ拡張を可逆的パーターブ・リカバリネットワークにより処理する。
セマンティクスの信頼性をさらに保証するために、ネットワークを制約する新たなセマンティクス損失が提示される。
論文 参考訳(メタデータ) (2023-08-17T13:07:09Z) - Graph Out-of-Distribution Generalization with Controllable Data
Augmentation [51.17476258673232]
グラフニューラルネットワーク(GNN)は,グラフ特性の分類において異常な性能を示した。
トレーニングとテストデータの選択バイアスが原因で、分散偏差が広まっています。
仮想サンプルの分布偏差を測定するためのOODキャリブレーションを提案する。
論文 参考訳(メタデータ) (2023-08-16T13:10:27Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - OOD-GNN: Out-of-Distribution Generalized Graph Neural Network [73.67049248445277]
グラフニューラルネットワーク(GNN)は、グラフデータのテストとトレーニングを同一の分布から行うことで、優れたパフォーマンスを実現している。
既存のGNNでは、テストとグラフデータのトレーニングの間に分散シフトが存在する場合、その性能が著しく低下する。
本稿では,学習グラフと異なる分布を持つ未確認試験グラフに対して,満足な性能を実現するために,アウト・オブ・ディストリビューション一般化グラフニューラルネットワーク(OOD-GNN)を提案する。
論文 参考訳(メタデータ) (2021-12-07T16:29:10Z) - Stable Prediction on Graphs with Agnostic Distribution Shift [105.12836224149633]
グラフニューラルネットワーク(GNN)は、ランダムにトレーニングとテストデータを分離した様々なグラフタスクに有効であることが示されている。
しかし、実際のアプリケーションでは、トレーニンググラフの分布はテストグラフとは異なるかもしれない。
本稿では,グラフ上での局所的およびグローバル的に安定な学習と予測を可能にする,GNNのための新しい安定な予測フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T02:45:47Z) - A Graph Data Augmentation Strategy with Entropy Preserving [11.886325179121226]
本稿では,グラフ間の特徴情報を評価するための定量的指標として,新しいグラフエントロピー定義を提案する。
グラフエントロピーの保存を考慮し、摂動機構を用いてトレーニングデータを生成する効果的な方法を提案する。
提案手法はトレーニング過程におけるGCNの堅牢性と一般化能力を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-13T12:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。