論文の概要: GraphCleaner: Detecting Mislabelled Samples in Popular Graph Learning
Benchmarks
- arxiv url: http://arxiv.org/abs/2306.00015v1
- Date: Tue, 30 May 2023 10:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 20:47:30.205833
- Title: GraphCleaner: Detecting Mislabelled Samples in Popular Graph Learning
Benchmarks
- Title(参考訳): graphcleaner: 一般的なグラフ学習ベンチマークで誤ったサンプルを検出する
- Authors: Yuwen Li, Miao Xiong, Bryan Hooi
- Abstract要約: 本稿では,グラフデータセット中の不正なノードを検出し,修正するためのポストホック手法であるGraphCleanerを提案する。
実データケーススタディでは、GraphCleanerは、人気のあるグラフベンチマークであるPubMed、Cora、CiteSeer、OGB-arxivで、本当の、あるいはこれまで未知のミスラベルを検出する。
PubMedデータのうち、少なくとも6.91%は不正または曖昧であり、単に不正データを削除するだけで、評価性能は86.71%から89.11%に向上する。
- 参考スコア(独自算出の注目度): 27.389831646730944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label errors have been found to be prevalent in popular text, vision, and
audio datasets, which heavily influence the safe development and evaluation of
machine learning algorithms. Despite increasing efforts towards improving the
quality of generic data types, such as images and texts, the problem of
mislabel detection in graph data remains underexplored. To bridge the gap, we
explore mislabelling issues in popular real-world graph datasets and propose
GraphCleaner, a post-hoc method to detect and correct these mislabelled nodes
in graph datasets. GraphCleaner combines the novel ideas of 1) Synthetic
Mislabel Dataset Generation, which seeks to generate realistic mislabels; and
2) Neighborhood-Aware Mislabel Detection, where neighborhood dependency is
exploited in both labels and base classifier predictions. Empirical evaluations
on 6 datasets and 6 experimental settings demonstrate that GraphCleaner
outperforms the closest baseline, with an average improvement of 0.14 in F1
score, and 0.16 in MCC. On real-data case studies, GraphCleaner detects real
and previously unknown mislabels in popular graph benchmarks: PubMed, Cora,
CiteSeer and OGB-arxiv; we find that at least 6.91% of PubMed data is
mislabelled or ambiguous, and simply removing these mislabelled data can boost
evaluation performance from 86.71% to 89.11%.
- Abstract(参考訳): ラベルエラーは、一般的なテキスト、ビジョン、オーディオデータセットで広く発生しており、機械学習アルゴリズムの安全な開発と評価に大きな影響を与えている。
画像やテキストなどの汎用データ型の品質向上への取り組みが増えているが、グラフデータの誤ラベル検出の問題は未解決のままである。
このギャップを埋めるために,一般的な実世界のグラフデータセットにおけるミスラベリング問題を調査し,グラフデータセットにおけるミスラベリングノードの検出と修正を行うポストホックな手法であるgraphcleanerを提案する。
GraphCleanerは、新しいアイデアを組み合わせる
1)現実的なミスラベルの生成を目指す合成ミスラベルデータセット生成,及び
2)近傍依存がラベルとベース分類器の両方の予測で悪用される近傍認識ミスラベル検出。
6つのデータセットと6つの実験的な設定に関する実証的な評価は、GraphCleanerがF1スコアで0.14、MCCで0.16という、最も近いベースラインを上回っていることを示している。
PubMed, Cora, CiteSeer, OGB-arxiv; PubMedデータの少なくとも6.91%は不正または曖昧であり、これらの不正データを削除するだけで、評価性能が86.71%から89.11%に向上する。
関連論文リスト
- Rethinking the impact of noisy labels in graph classification: A utility and privacy perspective [5.562183488165933]
データプライバシとモデルユーティリティの観点から,ノイズラベルがグラフ分類に与える影響を測定した。
雑音ラベル付きグラフ分類を用いた頑健なグラフニューラルネットワーク手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:44:37Z) - Mitigating Label Noise on Graph via Topological Sample Selection [72.86862597508077]
トポロジ情報を活用することで,グラフ内の情報的サンプル選択プロセスを促進できる$textitTopological Sample Selection$ (TSS)法を提案する。
提案手法は,対象のクリーン分布下での予測されるリスク上限の上限を最小化し,最先端のベースラインと比較して,提案手法の優位性を実験的に示す。
論文 参考訳(メタデータ) (2024-03-04T11:24:51Z) - ERASE: Error-Resilient Representation Learning on Graphs for Label Noise
Tolerance [53.73316938815873]
本稿では, ERASE (Error-Resilient representation learning on graphs for lAbel noiSe tolerancE) という手法を提案する。
ERASEは、プロトタイプの擬似ラベルとプロパゲーションされた識別ラベルを組み合わせて、表現をエラーレジリエンスで更新する。
提案手法は, 広い雑音レベルにおいて, 複数のベースラインをクリアマージンで上回り, 高いスケーラビリティを享受できる。
論文 参考訳(メタデータ) (2023-12-13T17:59:07Z) - An Empirical Study of Automated Mislabel Detection in Real World Vision
Datasets [3.123276402480922]
実世界のデータセットにラベルのずれのあるイメージを効果的に実装するための戦略を開発する。
アプローチを慎重に設計すると、クラス毎のパフォーマンスが最大8%向上する。
論文 参考訳(メタデータ) (2023-12-02T19:33:42Z) - Resurrecting Label Propagation for Graphs with Heterophily and Label Noise [40.11022005996222]
ラベルノイズは、ディープニューラルネットワークの一般化能力を著しく低下させるため、大規模なデータセットでは一般的な課題である。
任意のヘテロフィリーの文脈におけるグラフラベルノイズについて検討し、ノイズラベルの修正とラベルの割り当てを未ラベルノードで行うことを目的とした。
R2LP$は、3つのステップからなる反復アルゴリズムである。(1) グラフを再構成してホモフィリプロパティを復元し、(2) ラベルの伝搬を利用してノイズラベルを修正し、(3) 信頼度の高いラベルを選択して次のイテレーションに保持する。
論文 参考訳(メタデータ) (2023-10-25T11:28:26Z) - Towards Self-Interpretable Graph-Level Anomaly Detection [73.1152604947837]
グラフレベルの異常検出(GLAD)は、コレクションの大多数と比べて顕著な相違を示すグラフを識別することを目的としている。
本稿では,異常なグラフを検出し,同時に情報的説明を生成する自己解釈グラフaNomaly dETectionモデル(SIGNET)を提案する。
論文 参考訳(メタデータ) (2023-10-25T10:10:07Z) - Local Graph Clustering with Noisy Labels [8.142265733890918]
本稿では,ノード情報追加のプロキシとしてノイズの多いノードラベルを用いた局所グラフクラスタリングを提案する。
この設定では、ノードはクラスタのアフィリエイトに基づいて初期バイナリラベルを受け取る。
属性グラフから数個のサンプルを用いて,信頼性の高いノードラベルが得られることを示す。
論文 参考訳(メタデータ) (2023-10-12T04:37:15Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Handling Missing Data with Graph Representation Learning [62.59831675688714]
特徴量計算とラベル予測のためのグラフベースのフレームワークであるGRAPEを提案する。
GRAPEでは,特徴計算をエッジレベル予測タスク,ラベル予測をノードレベル予測タスクとして定式化する。
9つのベンチマークデータセットによる実験結果から、GRAPEは計算タスクの平均絶対誤差を20%低く、ラベル予測タスクを10%低くすることがわかった。
論文 参考訳(メタデータ) (2020-10-30T17:59:13Z) - Learn to Propagate Reliably on Noisy Affinity Graphs [69.97364913330989]
近年の研究では,ラベル伝搬によるラベル付きデータの利用により,ラベル付けコストを大幅に削減できることが示されている。
ラベルを確実に伝播する方法、特に未知の外れ値を持つデータセットでは、依然として未解決の問題である。
本稿では,大規模実世界のデータ上でラベルを確実に伝播させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-17T07:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。