論文の概要: Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for
Severe Label Noise
- arxiv url: http://arxiv.org/abs/2308.06861v1
- Date: Sun, 13 Aug 2023 23:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 14:55:05.308547
- Title: Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for
Severe Label Noise
- Title(参考訳): manifold dividemix: 重篤なラベルノイズに対する半教師付きコントラスト学習フレームワーク
- Authors: Fahimeh Fooladgar, Minh Nguyen Nhat To, Parvin Mousavi, Purang
Abolmaesumi
- Abstract要約: 実世界のデータセットには、データセットのどのクラスにも意味のないノイズの多いラベルサンプルが含まれている。
最先端の手法の多くは、IDラベル付きノイズサンプルを半教師付き学習のためのラベルなしデータとして利用する。
自己指導型トレーニングの利点を生かして,すべてのトレーニングデータからの情報を活用することを提案する。
- 参考スコア(独自算出の注目度): 4.90148689564172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have proven to be highly effective when large amounts of
data with clean labels are available. However, their performance degrades when
training data contains noisy labels, leading to poor generalization on the test
set. Real-world datasets contain noisy label samples that either have similar
visual semantics to other classes (in-distribution) or have no semantic
relevance to any class (out-of-distribution) in the dataset. Most
state-of-the-art methods leverage ID labeled noisy samples as unlabeled data
for semi-supervised learning, but OOD labeled noisy samples cannot be used in
this way because they do not belong to any class within the dataset. Hence, in
this paper, we propose incorporating the information from all the training data
by leveraging the benefits of self-supervised training. Our method aims to
extract a meaningful and generalizable embedding space for each sample
regardless of its label. Then, we employ a simple yet effective K-nearest
neighbor method to remove portions of out-of-distribution samples. By
discarding these samples, we propose an iterative "Manifold DivideMix"
algorithm to find clean and noisy samples, and train our model in a
semi-supervised way. In addition, we propose "MixEMatch", a new algorithm for
the semi-supervised step that involves mixup augmentation at the input and
final hidden representations of the model. This will extract better
representations by interpolating both in the input and manifold spaces.
Extensive experiments on multiple synthetic-noise image benchmarks and
real-world web-crawled datasets demonstrate the effectiveness of our proposed
framework. Code is available at https://github.com/Fahim-F/ManifoldDivideMix.
- Abstract(参考訳): ディープニューラルネットワークは、クリーンなラベルを持つ大量のデータが利用できる場合、非常に効果的であることが証明されている。
しかし、トレーニングデータにノイズラベルが含まれているとパフォーマンスが低下し、テストセットの一般化が不十分になる。
実世界のデータセットには、他のクラス(配信中)と類似した視覚的意味を持つか、データセット内の任意のクラス(配信外)に意味的関連を持たないノイズのあるラベルサンプルが含まれている。
最先端のほとんどの手法では、IDラベル付きノイズサンプルを半教師付き学習のためのラベル付きデータとして利用するが、OODラベル付きノイズサンプルはデータセット内のどのクラスにも属さないため、この方法では使用できない。
そこで本稿では,自己監督訓練の利点を生かして,すべてのトレーニングデータから情報を取り込む手法を提案する。
本手法はラベルにかかわらず各サンプルに対して有意義で一般化可能な埋め込み空間を抽出することを目的としている。
次に, 簡便かつ有効なk-nearest近傍法を用いて, 分布サンプルの一部を除去する。
これらのサンプルを廃棄することで、クリーンでノイズの多いサンプルを見つけ、半教師ありの方法でモデルをトレーニングするための反復的 "manifold dividemix" アルゴリズムを提案する。
さらに,モデルの入力と最終的な隠れ表現の混合を含む半教師付きステップのための新しいアルゴリズムである"MixEMatch"を提案する。
これにより、入力空間と多様体空間の両方を補間することでより良い表現を抽出する。
複数の合成ノイズ画像ベンチマークと実世界のwebクローラーデータセットに関する広範囲な実験により,提案フレームワークの有効性が示された。
コードはhttps://github.com/Fahim-F/ManifoldDivideMixで入手できる。
関連論文リスト
- Mitigating Noisy Supervision Using Synthetic Samples with Soft Labels [13.314778587751588]
ノイズラベルは、特にクラウドソーシングやWeb検索から派生した大規模データセットにおいて、現実世界のデータセットにおいてユビキタスである。
トレーニング中にノイズの多いラベルを過度に適合させる傾向にあるため、ノイズの多いデータセットでディープニューラルネットワークをトレーニングすることは難しい。
ノイズラベルの影響を軽減するために,新しい合成サンプルを用いてモデルを訓練するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-22T04:49:39Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Pairwise Similarity Distribution Clustering for Noisy Label Learning [0.0]
ノイズラベル学習は、ノイズラベルを持つ大量のサンプルを使用してディープニューラルネットワークをトレーニングすることを目的としている。
トレーニングサンプルを1つのクリーンなセットと別のノイズのあるセットに分割する,単純で効果的なサンプル選択アルゴリズムを提案する。
CIFAR-10、CIFAR-100、Clothing1Mといった様々なベンチマークデータセットの実験結果は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-02T11:30:22Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Sample Prior Guided Robust Model Learning to Suppress Noisy Labels [8.119439844514973]
本稿では,サンプルの事前知識を発生させることで雑音を抑えるための深層モデルの学習を行う新しいフレームワークPGDFを提案する。
我々のフレームワークは、より有益なハードクリーンなサンプルをクリーンにラベル付けされたセットに保存することができる。
我々は,CIFAR-10とCIFAR-100に基づく合成データセットと,WebVisionとChrothing1Mを用いた実世界のデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2021-12-02T13:09:12Z) - DivideMix: Learning with Noisy Labels as Semi-supervised Learning [111.03364864022261]
ノイズラベルを学習するためのフレームワークであるDivideMixを提案する。
複数のベンチマークデータセットの実験は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-02-18T06:20:06Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。