論文の概要: Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations
- arxiv url: http://arxiv.org/abs/2110.12088v1
- Date: Fri, 22 Oct 2021 22:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 14:44:36.422564
- Title: Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations
- Title(参考訳): 騒音ラベルによる学習再考 : 実世界の人間のアノテーションを用いた研究
- Authors: Jiaheng Wei, Zhaowei Zhu, Hao Cheng, Tongliang Liu, Gang Niu, and Yang
Liu
- Abstract要約: ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
- 参考スコア(独自算出の注目度): 54.400167806154535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research on learning with noisy labels mainly focuses on synthetic
label noise. Synthetic label noise, though has clean structures which greatly
enable statistical analyses, often fails to model the real-world noise
patterns. The recent literature has observed several efforts to offer
real-world noisy datasets, yet the existing efforts suffer from two caveats:
firstly, the lack of ground-truth verification makes it hard to theoretically
study the property and treatment of real-world label noise. Secondly, these
efforts are often of large scales, which may lead to unfair comparisons of
robust methods within reasonable and accessible computation power. To better
understand real-world label noise, it is important to establish controllable
and moderate-sized real-world noisy datasets with both ground-truth and noisy
labels. This work presents two new benchmark datasets (CIFAR-10N, CIFAR-100N),
equipping the train dataset of CIFAR-10 and CIFAR-100 with human-annotated
real-world noisy labels that we collect from Amazon Mechanical Turk. We
quantitatively and qualitatively show that real-world noisy labels follow an
instance-dependent pattern rather than the classically adopted class-dependent
ones. We then initiate an effort to benchmark a subset of existing solutions
using CIFAR-10N, CIFAR-100N. We next proceed to study the memorization of model
predictions, which further illustrates the difference between human noise and
class-dependent synthetic noise. We show indeed the real-world noise patterns
impose new and outstanding challenges as compared to synthetic ones. These
observations require us to rethink the treatment of noisy labels, and we hope
the availability of these two datasets would facilitate the development and
evaluation of future learning with noisy label solutions. The corresponding
datasets and the leaderboard are publicly available at
\url{http://noisylabels.com}.
- Abstract(参考訳): 雑音ラベルを用いた学習に関する最近の研究は,主に合成ラベルノイズに着目している。
合成ラベルノイズは、統計解析を大いに可能にするクリーンな構造を持つが、現実世界のノイズパターンのモデル化に失敗することが多い。
最近の文献では、実世界のノイズのデータセットを提供するためのいくつかの取り組みが観察されているが、既存の取り組みは2つの注意点に悩まされている。
第二に、これらの取り組みはしばしば大規模であり、合理的でアクセスしやすい計算能力において堅牢な手法の不正な比較につながる可能性がある。
実世界のラベルノイズをよりよく理解するためには、制御可能で中規模な実世界のノイズデータセットを確立することが重要である。
本研究は、CIFAR-10とCIFAR-100の列車データセットに、Amazon Mechanical Turkから収集した人間の注釈付き実世界のノイズラベルを付けた2つの新しいベンチマークデータセット(CIFAR-10N、CIFAR-100N)を提示する。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
CIFAR-10N, CIFAR-100Nを用いて既存のソリューションのサブセットをベンチマークする作業を開始する。
次に, モデル予測の暗記について検討し, ヒトの雑音とクラス依存合成雑音との差について述べる。
実際、現実世界のノイズパターンは、合成と比べ、新しくて際立った課題を課している。
これらの観察は,ノイズラベルの扱いを再考することが必要であり,これらの2つのデータセットが利用可能になることで,ノイズラベルソリューションによる将来の学習の開発と評価が容易になることを期待する。
対応するデータセットとリーダボードは、 \url{http://noisylabels.com}で公開されている。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - Noisy Label Processing for Classification: A Survey [2.8821062918162146]
長い、退屈なデータアノテーションのプロセスでは、アノテーションはミスをしがちで、画像のラベルが正しくない。
コンピュータビジョンタスク、特に分類タスクにおいて、ノイズの多いラベルと戦うことが不可欠である。
実世界のデータで導かれる合成ラベルノイズパターンを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-05T15:11:09Z) - Group Benefits Instances Selection for Data Purification [21.977432359384835]
ラベルノイズと戦う既存の方法は通常、合成データセット上で設計およびテストされる。
本稿では,合成および実世界の両方のデータセットに対するノイズラベル問題を緩和するGRIPという手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T03:06:19Z) - NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in
Natural Language Processing [26.678589684142548]
実世界の大規模なデータセットには、必然的にラベルノイズが伴う。
ディープモデルはノイズの多いラベルに徐々に適合し、一般化性能を低下させる。
ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)による学習は,より優れた一般化性能を実現するために設計されている。
論文 参考訳(メタデータ) (2023-05-18T05:01:04Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。