論文の概要: Analysis of label noise in graph-based semi-supervised learning
- arxiv url: http://arxiv.org/abs/2009.12966v1
- Date: Sun, 27 Sep 2020 22:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:17:31.514290
- Title: Analysis of label noise in graph-based semi-supervised learning
- Title(参考訳): グラフに基づく半教師付き学習におけるラベルノイズの解析
- Authors: Bruno Klaus de Aquino Afonso, Lilian Berton
- Abstract要約: 機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。
多くの場合、私たちのデータのほとんどはラベル付けされていない。
半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
- 参考スコア(独自算出の注目度): 2.4366811507669124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In machine learning, one must acquire labels to help supervise a model that
will be able to generalize to unseen data. However, the labeling process can be
tedious, long, costly, and error-prone. It is often the case that most of our
data is unlabeled. Semi-supervised learning (SSL) alleviates that by making
strong assumptions about the relation between the labels and the input data
distribution. This paradigm has been successful in practice, but most SSL
algorithms end up fully trusting the few available labels. In real life, both
humans and automated systems are prone to mistakes; it is essential that our
algorithms are able to work with labels that are both few and also unreliable.
Our work aims to perform an extensive empirical evaluation of existing
graph-based semi-supervised algorithms, like Gaussian Fields and Harmonic
Functions, Local and Global Consistency, Laplacian Eigenmaps, Graph
Transduction Through Alternating Minimization. To do that, we compare the
accuracy of classifiers while varying the amount of labeled data and label
noise for many different samples. Our results show that, if the dataset is
consistent with SSL assumptions, we are able to detect the noisiest instances,
although this gets harder when the number of available labels decreases. Also,
the Laplacian Eigenmaps algorithm performed better than label propagation when
the data came from high-dimensional clusters.
- Abstract(参考訳): 機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。
しかし、ラベル付けプロセスは退屈で、長く、高価で、エラーを起こしやすい。
多くの場合、私たちのデータのほとんどはラベルなしです。
半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
このパラダイムは実際に成功したが、ほとんどのSSLアルゴリズムは、利用可能な数少ないラベルを完全に信頼している。
現実には、人間と自動化されたシステムの両方がミスを犯しやすい。私たちのアルゴリズムが、少数かつ信頼性の低いラベルで動作できることは不可欠です。
本研究の目的は,ガウス場や高調波関数,局所・グローバル整合性,ラプラシア固有写像,グラフ変換による最小化など,既存のグラフベースの半教師付きアルゴリズムを広範囲に評価することである。
そこで本研究では,ラベル付きデータの量やラベルノイズを多種多様に変化させながら,分類器の精度を比較する。
私たちの結果は、データセットがsslの仮定と一致している場合、最も迷惑なインスタンスを検出できることを示しているが、利用可能なラベルの数を減らすと難しくなる。
また,laplacian eigenmapsアルゴリズムは,高次元クラスタを用いた場合のラベル伝搬よりも優れていた。
関連論文リスト
- Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition [50.61991746981703]
現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して高品質な擬似ラベルに依存している。
本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。
我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。
論文 参考訳(メタデータ) (2024-10-08T15:06:10Z) - Learning with Confidence: Training Better Classifiers from Soft Labels [0.0]
教師付き機械学習では、モデルは通常、ハードラベルを持つデータ、すなわちクラスメンバーシップの明確な割り当てを用いて訓練される。
クラスラベル上の離散確率分布として表されるラベルの不確実性を組み込むことで,分類モデルの予測性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-24T13:12:29Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - How many labelers do you have? A closer look at gold-standard labels [10.637125300701795]
我々は、非集約ラベル情報へのアクセスによって、ゴールドスタンダードラベルよりも、トレーニングの適格化がより実現可能であることを示す。
我々は,非アグリゲートラベルが学習性能を改善することを含む,実世界のデータセットの予測を行う。
論文 参考訳(メタデータ) (2022-06-24T02:33:50Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Instance-dependent Label-noise Learning under a Structural Causal Model [92.76400590283448]
ラベルノイズはディープラーニングアルゴリズムの性能を劣化させる。
構造因果モデルを活用することにより,実例依存型ラベルノイズ学習のための新しい生成手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T10:42:54Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Identifying noisy labels with a transductive semi-supervised
leave-one-out filter [2.4366811507669124]
本稿では,LGC_LVOF(Local and Global Consistency (LGC) アルゴリズムに基づく一括フィルタリング手法)を導入する。
私たちのアプローチは、大量のラベルのないデータを持つデータセットに最も適していますが、ラベルは多くありません。
論文 参考訳(メタデータ) (2020-09-24T16:50:06Z) - Label Noise Types and Their Effects on Deep Learning [0.0]
本研究では,異なる種類のラベルノイズが学習に与える影響を詳細に分析する。
本稿では,特徴に依存したラベルノイズを生成する汎用フレームワークを提案する。
他の研究者がノイズの多いラベルでアルゴリズムをテストしやすいように、最も一般的に使用されているベンチマークデータセットに対して、破損したラベルを共有します。
論文 参考訳(メタデータ) (2020-03-23T18:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。