論文の概要: Class Prototype-based Cleaner for Label Noise Learning
- arxiv url: http://arxiv.org/abs/2212.10766v1
- Date: Wed, 21 Dec 2022 04:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:04:39.152134
- Title: Class Prototype-based Cleaner for Label Noise Learning
- Title(参考訳): ラベルノイズ学習のためのクラスプロトタイプベースクリーナー
- Authors: Jingjia Huang, Yuanqi Chen, Jiashi Feng, Xinglong Wu
- Abstract要約: 半教師付き学習法は、雑音ラベル学習問題に対する現在のSOTAソリューションである。
textbfClass textbfPrototype-based label textbfCleaner。
- 参考スコア(独自算出の注目度): 73.007001454085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised learning based methods are current SOTA solutions to the
noisy-label learning problem, which rely on learning an unsupervised label
cleaner first to divide the training samples into a labeled set for clean data
and an unlabeled set for noise data. Typically, the cleaner is obtained via
fitting a mixture model to the distribution of per-sample training losses.
However, the modeling procedure is \emph{class agnostic} and assumes the loss
distributions of clean and noise samples are the same across different classes.
Unfortunately, in practice, such an assumption does not always hold due to the
varying learning difficulty of different classes, thus leading to sub-optimal
label noise partition criteria. In this work, we reveal this long-ignored
problem and propose a simple yet effective solution, named \textbf{C}lass
\textbf{P}rototype-based label noise \textbf{C}leaner (\textbf{CPC}). Unlike
previous works treating all the classes equally, CPC fully considers loss
distribution heterogeneity and applies class-aware modulation to partition the
clean and noise data. CPC takes advantage of loss distribution modeling and
intra-class consistency regularization in feature space simultaneously and thus
can better distinguish clean and noise labels. We theoretically justify the
effectiveness of our method by explaining it from the Expectation-Maximization
(EM) framework. Extensive experiments are conducted on the noisy-label
benchmarks CIFAR-10, CIFAR-100, Clothing1M and WebVision. The results show that
CPC consistently brings about performance improvement across all benchmarks.
Codes and pre-trained models will be released at
\url{https://github.com/hjjpku/CPC.git}.
- Abstract(参考訳): 半教師付き学習に基づく手法は、教師なしラベルクリーナーを学習してトレーニングサンプルをラベル付きデータセットに分割し、クリーンデータとラベルなしのノイズデータに分割するノイズラベル学習問題に対する現在のSOTAソリューションである。
通常、クリーナは、サンプル毎のトレーニング損失の分布に混合モデルを適用することによって得られる。
しかし、モデリング手順は \emph{class agnostic} であり、クリーンサンプルとノイズサンプルの損失分布は異なるクラスで同じであると仮定する。
残念なことに、実際には、このような仮定は常に異なるクラスの学習困難さのために保持されないため、最適なラベルノイズ分割基準が導かれる。
本研究では,この長く無視された問題を解明し,単純かつ効果的な解法である \textbf{c}lass \textbf{p}rototype-based label noise \textbf{c}leaner (\textbf{cpc})を提案する。
全てのクラスを等しく扱う以前の作品とは異なり、cpcは損失分布の不均一性を完全に考慮し、クリーンとノイズデータを分割するためにクラスアウェア変調を適用する。
CPCは、損失分布モデリングと特徴空間におけるクラス内整合性正規化を同時に利用することにより、クリーンおよびノイズラベルをよりよく識別することができる。
予測最大化(EM)フレームワークから,提案手法の有効性を理論的に正当化する。
CIFAR-10, CIFAR-100, Clothing1M および WebVision を用いて, 広範に実験を行った。
結果は、CPCがすべてのベンチマークで一貫してパフォーマンス改善をもたらすことを示している。
コードと事前トレーニングされたモデルは \url{https://github.com/hjjpku/cpc.git} でリリースされる。
関連論文リスト
- CLIPCleaner: Cleaning Noisy Labels with CLIP [36.434849361479316]
textitCLIPCleanerは、効率的なオフライン、クリーンなサンプル選択のためのゼロショット分類器である。
textitCLIPCleanerは、ベンチマークデータセット上での競合や優れたパフォーマンスを実現する、シンプルなシングルステップのアプローチを提供する。
論文 参考訳(メタデータ) (2024-08-19T14:05:58Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for
Severe Label Noise [4.90148689564172]
実世界のデータセットには、データセットのどのクラスにも意味のないノイズの多いラベルサンプルが含まれている。
最先端の手法の多くは、IDラベル付きノイズサンプルを半教師付き学習のためのラベルなしデータとして利用する。
自己指導型トレーニングの利点を生かして,すべてのトレーニングデータからの情報を活用することを提案する。
論文 参考訳(メタデータ) (2023-08-13T23:33:33Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - From Noisy Prediction to True Label: Noisy Prediction Calibration via
Generative Model [22.722830935155223]
ノイズ予測(NPC)は、ノイズラベルで学習する新しいアプローチである。
NPCは、事前訓練された分類器から真のラベルへのノイズ予測を後処理スキームとして修正する。
本手法は,合成および実世界の両方のデータセット上でのベースラインモデルの分類性能を向上させる。
論文 参考訳(メタデータ) (2022-05-02T07:15:45Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - LongReMix: Robust Learning with High Confidence Samples in a Noisy Label
Environment [33.376639002442914]
新しい2段ノイズラベルトレーニングアルゴリズムLongReMixを提案します。
CIFAR-10, CIFAR-100, WebVision, Clothing1M, Food101-NでLongReMixを試験した。
私たちのアプローチは、ほとんどのデータセットで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-06T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。