論文の概要: Identifying Hard Noise in Long-Tailed Sample Distribution
- arxiv url: http://arxiv.org/abs/2207.13378v2
- Date: Fri, 31 Mar 2023 07:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 17:27:30.038723
- Title: Identifying Hard Noise in Long-Tailed Sample Distribution
- Title(参考訳): ロングテール標本分布におけるハードノイズの同定
- Authors: Xuanyu Yi, Kaihua Tang, Xian-Sheng Hua, Joo-Hwee Lim, Hanwang Zhang
- Abstract要約: NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
- 参考スコア(独自算出の注目度): 76.16113794808001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional de-noising methods rely on the assumption that all samples are
independent and identically distributed, so the resultant classifier, though
disturbed by noise, can still easily identify the noises as the outliers of
training distribution. However, the assumption is unrealistic in large-scale
data that is inevitably long-tailed. Such imbalanced training data makes a
classifier less discriminative for the tail classes, whose previously "easy"
noises are now turned into "hard" ones -- they are almost as outliers as the
clean tail samples. We introduce this new challenge as Noisy Long-Tailed
Classification (NLT). Not surprisingly, we find that most de-noising methods
fail to identify the hard noises, resulting in significant performance drop on
the three proposed NLT benchmarks: ImageNet-NLT, Animal10-NLT, and Food101-NLT.
To this end, we design an iterative noisy learning framework called
Hard-to-Easy (H2E). Our bootstrapping philosophy is to first learn a classifier
as noise identifier invariant to the class and context distributional changes,
reducing "hard" noises to "easy" ones, whose removal further improves the
invariance. Experimental results show that our H2E outperforms state-of-the-art
de-noising methods and their ablations on long-tailed settings while
maintaining a stable performance on the conventional balanced settings.
Datasets and codes are available at https://github.com/yxymessi/H2E-Framework
- Abstract(参考訳): 従来の de-noising 法は、全てのサンプルが独立で同一に分布しているという仮定に依存しているため、結果の分類器はノイズに邪魔されても、そのノイズをトレーニング分布の外れ値として容易に識別することができる。
しかし、この仮定は必然的に長い尾を持つ大規模データでは非現実的である。
このような不均衡なトレーニングデータによって、分類器は、それまで"簡単な"ノイズが"ハード"なクラスに変わり、クリーンなテールサンプルとほぼ同等の外れ値になる尾クラスに対して、識別性が低下する。
この新たな課題を,NLT (Noisy Long-Tailed Classification) と呼ぶ。
当然のことながら、ほとんどのノイズ除去手法はハードノイズの識別に失敗し、ImageNet-NLT、Animal10-NLT、Food101-NLTという3つのNLTベンチマークで性能が大幅に低下した。
そこで我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
我々のブートストラッピング哲学は、まず、クラスとコンテキストの分布変化に不変なノイズ識別子として分類器を学習し、「ハード」ノイズを「簡単」ノイズに減らし、その除去により不変性がさらに向上する。
実験結果から,h2eは,従来のバランスのとれた設定で安定した性能を維持しつつ,最先端の脱ノイズ法と,そのアブレーションよりも優れていた。
データセットとコードはhttps://github.com/yxymessi/h2e-frameworkで入手できる。
関連論文リスト
- Instance-dependent Noisy-label Learning with Graphical Model Based Noise-rate Estimation [16.283722126438125]
ラベルノイズ学習(LNL)は、クリーンでノイズの多いラベルサンプルを区別するためにサンプル選択段階を組み込む。
このようなカリキュラムは、トレーニングセットの実際のラベルノイズ率を考慮していないため、準最適である。
本稿では,ほとんどのSOTA (State-of-the-art) LNL法と容易に統合できる新しいノイズレート推定法を用いて,この問題に対処する。
論文 参考訳(メタデータ) (2023-05-31T01:46:14Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - Uncertainty-Aware Learning Against Label Noise on Imbalanced Datasets [23.4536532321199]
不整合データセットのラベルノイズを処理するための不確かさを意識したラベル補正フレームワークを提案する。
本研究では,不均衡なデータセットのラベルノイズを処理するために,不確かさを意識したラベル補正フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T11:35:55Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Learning From Long-Tailed Data With Noisy Labels [0.0]
クラス不均衡とノイズラベルは多くの大規模分類データセットの標準である。
本稿では,近年の自己教師型学習の進歩をもとに,簡単な2段階のアプローチを提案する。
自己指導型学習アプローチは,重度のクラス不均衡に効果的に対処できることが判明した。
論文 参考訳(メタデータ) (2021-08-25T07:45:40Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Confidence Scores Make Instance-dependent Label-noise Learning Possible [129.84497190791103]
ノイズのあるラベルで学習する際、そのラベルはノイズモデルと呼ばれる遷移分布に従ってランダムに他のクラスに移動することができる。
我々は、各インスタンスラベル対に信頼スコアを付与する、信頼スコア付きインスタンス依存ノイズ(CSIDN)を導入する。
信頼性スコアの助けを借りて、各インスタンスの遷移分布を推定できる。
論文 参考訳(メタデータ) (2020-01-11T16:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。