Fugu-MT 論文翻訳(概要): Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for Severe Label Noise

論文の概要: Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for Severe Label Noise

arxiv url: http://arxiv.org/abs/2308.06861v1
Date: Sun, 13 Aug 2023 23:33:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 14:55:05.308547
Title: Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for Severe Label Noise
Title（参考訳）: manifold dividemix: 重篤なラベルノイズに対する半教師付きコントラスト学習フレームワーク
Authors: Fahimeh Fooladgar, Minh Nguyen Nhat To, Parvin Mousavi, Purang Abolmaesumi
Abstract要約: 実世界のデータセットには、データセットのどのクラスにも意味のないノイズの多いラベルサンプルが含まれている。最先端の手法の多くは、IDラベル付きノイズサンプルを半教師付き学習のためのラベルなしデータとして利用する。自己指導型トレーニングの利点を生かして,すべてのトレーニングデータからの情報を活用することを提案する。
参考スコア（独自算出の注目度）: 4.90148689564172
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep neural networks have proven to be highly effective when large amounts of data with clean labels are available. However, their performance degrades when training data contains noisy labels, leading to poor generalization on the test set. Real-world datasets contain noisy label samples that either have similar visual semantics to other classes (in-distribution) or have no semantic relevance to any class (out-of-distribution) in the dataset. Most state-of-the-art methods leverage ID labeled noisy samples as unlabeled data for semi-supervised learning, but OOD labeled noisy samples cannot be used in this way because they do not belong to any class within the dataset. Hence, in this paper, we propose incorporating the information from all the training data by leveraging the benefits of self-supervised training. Our method aims to extract a meaningful and generalizable embedding space for each sample regardless of its label. Then, we employ a simple yet effective K-nearest neighbor method to remove portions of out-of-distribution samples. By discarding these samples, we propose an iterative "Manifold DivideMix" algorithm to find clean and noisy samples, and train our model in a semi-supervised way. In addition, we propose "MixEMatch", a new algorithm for the semi-supervised step that involves mixup augmentation at the input and final hidden representations of the model. This will extract better representations by interpolating both in the input and manifold spaces. Extensive experiments on multiple synthetic-noise image benchmarks and real-world web-crawled datasets demonstrate the effectiveness of our proposed framework. Code is available at https://github.com/Fahim-F/ManifoldDivideMix.
Abstract（参考訳）: ディープニューラルネットワークは、クリーンなラベルを持つ大量のデータが利用できる場合、非常に効果的であることが証明されている。しかし、トレーニングデータにノイズラベルが含まれているとパフォーマンスが低下し、テストセットの一般化が不十分になる。実世界のデータセットには、他のクラス(配信中)と類似した視覚的意味を持つか、データセット内の任意のクラス(配信外)に意味的関連を持たないノイズのあるラベルサンプルが含まれている。最先端のほとんどの手法では、IDラベル付きノイズサンプルを半教師付き学習のためのラベル付きデータとして利用するが、OODラベル付きノイズサンプルはデータセット内のどのクラスにも属さないため、この方法では使用できない。そこで本稿では,自己監督訓練の利点を生かして,すべてのトレーニングデータから情報を取り込む手法を提案する。本手法はラベルにかかわらず各サンプルに対して有意義で一般化可能な埋め込み空間を抽出することを目的としている。次に, 簡便かつ有効なk-nearest近傍法を用いて, 分布サンプルの一部を除去する。これらのサンプルを廃棄することで、クリーンでノイズの多いサンプルを見つけ、半教師ありの方法でモデルをトレーニングするための反復的 "manifold dividemix" アルゴリズムを提案する。さらに,モデルの入力と最終的な隠れ表現の混合を含む半教師付きステップのための新しいアルゴリズムである"MixEMatch"を提案する。これにより、入力空間と多様体空間の両方を補間することでより良い表現を抽出する。複数の合成ノイズ画像ベンチマークと実世界のwebクローラーデータセットに関する広範囲な実験により,提案フレームワークの有効性が示された。コードはhttps://github.com/Fahim-F/ManifoldDivideMixで入手できる。

関連論文リスト

Enhancing Sample Utilization in Noise-Robust Deep Metric Learning With Subgroup-Based Positive-Pair Selection [84.78475642696137]
実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。サブグループに基づく正対選択(SGPS)を用いたノイズロストDMLフレームワークを提案する。 SGPSは、ノイズのあるサンプルに対して信頼性の高い正のペアを構築し、サンプルの利用率を高める。
論文参考訳（メタデータ） (2025-01-19T14:41:55Z)
Mitigating Noisy Supervision Using Synthetic Samples with Soft Labels [13.314778587751588]
ノイズラベルは、特にクラウドソーシングやWeb検索から派生した大規模データセットにおいて、現実世界のデータセットにおいてユビキタスである。トレーニング中にノイズの多いラベルを過度に適合させる傾向にあるため、ノイズの多いデータセットでディープニューラルネットワークをトレーニングすることは難しい。ノイズラベルの影響を軽減するために,新しい合成サンプルを用いてモデルを訓練するフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-22T04:49:39Z)
Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文参考訳（メタデータ） (2024-04-10T07:34:37Z)
Pairwise Similarity Distribution Clustering for Noisy Label Learning [0.0]
ノイズラベル学習は、ノイズラベルを持つ大量のサンプルを使用してディープニューラルネットワークをトレーニングすることを目的としている。トレーニングサンプルを1つのクリーンなセットと別のノイズのあるセットに分割する,単純で効果的なサンプル選択アルゴリズムを提案する。 CIFAR-10、CIFAR-100、Clothing1Mといった様々なベンチマークデータセットの実験結果は、最先端の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2024-04-02T11:30:22Z)
Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文参考訳（メタデータ） (2022-08-21T07:47:05Z)
UNICON: Combating Label Noise Through Uniform Selection and Contrastive Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。 90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文参考訳（メタデータ） (2022-03-28T07:36:36Z)
Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文参考訳（メタデータ） (2022-02-04T15:46:27Z)
Sample Prior Guided Robust Model Learning to Suppress Noisy Labels [8.119439844514973]
本稿では,サンプルの事前知識を発生させることで雑音を抑えるための深層モデルの学習を行う新しいフレームワークPGDFを提案する。我々のフレームワークは、より有益なハードクリーンなサンプルをクリーンにラベル付けされたセットに保存することができる。我々は,CIFAR-10とCIFAR-100に基づく合成データセットと,WebVisionとChrothing1Mを用いた実世界のデータセットを用いて評価を行った。
論文参考訳（メタデータ） (2021-12-02T13:09:12Z)
DivideMix: Learning with Noisy Labels as Semi-supervised Learning [111.03364864022261]
ノイズラベルを学習するためのフレームワークであるDivideMixを提案する。複数のベンチマークデータセットの実験は、最先端の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2020-02-18T06:20:06Z)
Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文参考訳（メタデータ） (2020-02-11T21:08:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。