論文の概要: ScanMix: Learning from Severe Label Noise via Semantic Clustering and
Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2103.11395v1
- Date: Sun, 21 Mar 2021 13:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 06:09:39.920513
- Title: ScanMix: Learning from Severe Label Noise via Semantic Clustering and
Semi-Supervised Learning
- Title(参考訳): ScanMix: セマンティッククラスタリングと半教師付き学習によるラベルノイズからの学習
- Authors: Ragav Sachdeva, Filipe R Cordeiro, Vasileios Belagiannis, Ian Reid,
Gustavo Carneiro
- Abstract要約: 提案するトレーニングアルゴリズムScanMixは、セマンティッククラスタリングと半教師付き学習(SSL)を組み合わせて、特徴表現を改善する。
ScanMixは期待最大化(EM)フレームワークに基づいて設計されており、Eステップはトレーニングイメージをクラスタ化するために潜む変数の値を推定します。
CIFAR-10 と CIFAR-100 の対称,非対称,セマンティックラベルノイズの標準ベンチマークおよび WebVision の大規模実ラベルノイズについて,その現状について述べる。
- 参考スコア(独自算出の注目度): 33.376639002442914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the problem of training deep neural networks in the
presence of severe label noise. Our proposed training algorithm ScanMix,
combines semantic clustering with semi-supervised learning (SSL) to improve the
feature representations and enable an accurate identification of noisy samples,
even in severe label noise scenarios. To be specific, ScanMix is designed based
on the expectation maximisation (EM) framework, where the E-step estimates the
value of a latent variable to cluster the training images based on their
appearance representations and classification results, and the M-step optimises
the SSL classification and learns effective feature representations via
semantic clustering. In our evaluations, we show state-of-the-art results on
standard benchmarks for symmetric, asymmetric and semantic label noise on
CIFAR-10 and CIFAR-100, as well as large scale real label noise on WebVision.
Most notably, for the benchmarks contaminated with large noise rates (80% and
above), our results are up to 27% better than the related work. The code is
available at https://github.com/ragavsachdeva/ScanMix.
- Abstract(参考訳): 本稿では,重篤なラベル雑音の存在下で深層ニューラルネットワークを訓練する問題に対処する。
提案するトレーニングアルゴリズムであるScanMixは,意味クラスタリングと半教師付き学習(SSL)を組み合わせることで,特徴表現の改善と,重度ラベルノイズシナリオにおいても,ノイズの多いサンプルの正確な識別を可能にする。
具体的には、ScanMixは予測最大化(EM)フレームワークに基づいて設計されており、Eステップは、その外観表現と分類結果に基づいてトレーニングイメージをクラスタリングするために潜伏変数の値を推定し、MステップはSSL分類を最適化し、セマンティッククラスタリングを介して効果的な特徴表現を学ぶ。
本評価では,CIFAR-10とCIFAR-100の対称,非対称,セマンティックなラベルノイズに対する標準ベンチマークおよびWebVisionの大規模実ラベルノイズについて,その現状について述べる。
最も注目すべきは、大きなノイズ率(80%以上)で汚染されたベンチマークの場合、我々の結果は関連する研究よりも最大27%良い。
コードはhttps://github.com/ragavsachdeva/scanmixで入手できる。
関連論文リスト
- Mitigating Noisy Supervision Using Synthetic Samples with Soft Labels [13.314778587751588]
ノイズラベルは、特にクラウドソーシングやWeb検索から派生した大規模データセットにおいて、現実世界のデータセットにおいてユビキタスである。
トレーニング中にノイズの多いラベルを過度に適合させる傾向にあるため、ノイズの多いデータセットでディープニューラルネットワークをトレーニングすることは難しい。
ノイズラベルの影響を軽減するために,新しい合成サンプルを用いてモデルを訓練するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-22T04:49:39Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Class Prototype-based Cleaner for Label Noise Learning [73.007001454085]
半教師付き学習法は、雑音ラベル学習問題に対する現在のSOTAソリューションである。
textbfClass textbfPrototype-based label textbfCleaner。
論文 参考訳(メタデータ) (2022-12-21T04:56:41Z) - Embedding contrastive unsupervised features to cluster in- and
out-of-distribution noise in corrupted image datasets [18.19216557948184]
Web画像検索に検索エンジンを使用することは、イメージデータセットを作成する際の手作業によるキュレーションに代わる誘惑的な手段である。
主な欠点は、回収された間違った(ノイズの多い)サンプルの割合である。
本稿では,教師なしのコントラスト特徴学習を用いた検出ステップから始める2段階のアルゴリズムを提案する。
比較学習のアライメントと均一性原理により,OODサンプルは単位超球面上のIDサンプルから線形に分離できることがわかった。
論文 参考訳(メタデータ) (2022-07-04T16:51:56Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - LongReMix: Robust Learning with High Confidence Samples in a Noisy Label
Environment [33.376639002442914]
新しい2段ノイズラベルトレーニングアルゴリズムLongReMixを提案します。
CIFAR-10, CIFAR-100, WebVision, Clothing1M, Food101-NでLongReMixを試験した。
私たちのアプローチは、ほとんどのデータセットで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-06T18:48:40Z) - Multi-Objective Interpolation Training for Robustness to Label Noise [17.264550056296915]
標準教師付きコントラスト学習はラベル雑音の存在下で劣化することを示す。
コントラスト学習により学習したロバストな特徴表現を利用する新しいラベルノイズ検出手法を提案する。
合成および実世界のノイズベンチマークの実験は、MOIT/MOIT+が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2020-12-08T15:01:54Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。