論文の概要: NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in
Natural Language Processing
- arxiv url: http://arxiv.org/abs/2305.10709v1
- Date: Thu, 18 May 2023 05:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:52:00.618309
- Title: NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in
Natural Language Processing
- Title(参考訳): NoisywikiHow: 自然言語処理における実世界のノイズラベルを用いた学習ベンチマーク
- Authors: Tingting Wu, Xiao Ding, Minji Tang, Hao Zhang, Bing Qin, Ting Liu
- Abstract要約: 実世界の大規模なデータセットには、必然的にラベルノイズが伴う。
ディープモデルはノイズの多いラベルに徐々に適合し、一般化性能を低下させる。
ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)による学習は,より優れた一般化性能を実現するために設計されている。
- 参考スコア(独自算出の注目度): 26.678589684142548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale datasets in the real world inevitably involve label noise. Deep
models can gradually overfit noisy labels and thus degrade model
generalization. To mitigate the effects of label noise, learning with noisy
labels (LNL) methods are designed to achieve better generalization performance.
Due to the lack of suitable datasets, previous studies have frequently employed
synthetic label noise to mimic real-world label noise. However, synthetic noise
is not instance-dependent, making this approximation not always effective in
practice. Recent research has proposed benchmarks for learning with real-world
noisy labels. However, the noise sources within may be single or fuzzy, making
benchmarks different from data with heterogeneous label noises in the real
world. To tackle these issues, we contribute NoisywikiHow, the largest NLP
benchmark built with minimal supervision. Specifically, inspired by human
cognition, we explicitly construct multiple sources of label noise to imitate
human errors throughout the annotation, replicating real-world noise, whose
corruption is affected by both ground-truth labels and instances. Moreover, we
provide a variety of noise levels to support controlled experiments on noisy
data, enabling us to evaluate LNL methods systematically and comprehensively.
After that, we conduct extensive multi-dimensional experiments on a broad range
of LNL methods, obtaining new and intriguing findings.
- Abstract(参考訳): 現実世界の大規模データセットは、必然的にラベルノイズを伴う。
ディープモデルはノイズラベルに徐々に適合し、モデル一般化を劣化させる。
ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)を用いて学習することで,より優れた一般化性能を実現する。
適切なデータセットがないため、従来の研究では実世界のラベルノイズを模倣する合成ラベルノイズが頻繁に用いられてきた。
しかし、合成ノイズはインスタンス依存ではないため、この近似は実際は必ずしも有効ではない。
近年,実世界の雑音ラベルを用いた学習のためのベンチマークが提案されている。
しかし、内部のノイズ源は単一またはファジィであり、実世界の異質なラベルノイズを持つデータとベンチマークが異なる。
これらの問題に対処するため、最小限の監視で構築された最大のNLPベンチマークであるNoisywikiHowをコントリビュートする。
具体的には、人間の認識に触発されて、アノテーション全体を通してヒューマンエラーを模倣するためにラベルノイズの複数のソースを明示的に構築し、実際のノイズを再現する。
さらに、ノイズデータに対する制御実験を支援するため、様々なノイズレベルを提供し、LNL法を系統的かつ包括的に評価することができる。
その後,広範囲のlnl法について多次元実験を行い,新たな興味をそそる知見を得た。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - Noisy Label Processing for Classification: A Survey [2.8821062918162146]
長い、退屈なデータアノテーションのプロセスでは、アノテーションはミスをしがちで、画像のラベルが正しくない。
コンピュータビジョンタスク、特に分類タスクにおいて、ノイズの多いラベルと戦うことが不可欠である。
実世界のデータで導かれる合成ラベルノイズパターンを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-05T15:11:09Z) - Group Benefits Instances Selection for Data Purification [21.977432359384835]
ラベルノイズと戦う既存の方法は通常、合成データセット上で設計およびテストされる。
本稿では,合成および実世界の両方のデータセットに対するノイズラベル問題を緩和するGRIPという手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T03:06:19Z) - BadLabel: A Robust Perspective on Evaluating and Enhancing Label-noise
Learning [113.8799653759137]
我々はBadLabelと呼ばれる新しいラベルノイズタイプを導入し、既存のLNLアルゴリズムの性能を大幅に劣化させることができる。
BadLabelは、標準分類に対するラベルフライング攻撃に基づいて開発されている。
そこで本稿では, 各エポックにおいてラベルを逆向きに摂動させ, クリーンかつノイズの多いラベルの損失値を再び識別可能にする頑健なLNL法を提案する。
論文 参考訳(メタデータ) (2023-05-28T06:26:23Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Open-set Label Noise Can Improve Robustness Against Inherent Label Noise [27.885927200376386]
オープンセットノイズラベルは非毒性であり, 固有ノイズラベルに対するロバスト性にも寄与することを示した。
本研究では,動的雑音ラベル(ODNL)を用いたオープンセットサンプルをトレーニングに導入することで,シンプルかつ効果的な正規化を提案する。
論文 参考訳(メタデータ) (2021-06-21T07:15:50Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。