論文の概要: Is BERT Robust to Label Noise? A Study on Learning with Noisy Labels in
Text Classification
- arxiv url: http://arxiv.org/abs/2204.09371v1
- Date: Wed, 20 Apr 2022 10:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 14:15:15.608695
- Title: Is BERT Robust to Label Noise? A Study on Learning with Noisy Labels in
Text Classification
- Title(参考訳): BERTはラベルノイズに頑健か?
テキスト分類における雑音ラベルを用いた学習に関する研究
- Authors: Dawei Zhu, Michael A. Hedderich, Fangzhou Zhai, David Ifeoluwa
Adelani, Dietrich Klakow
- Abstract要約: トレーニングデータの誤りラベルは、人間のアノテータがミスをしたときや、弱いまたは遠い監視によってデータが生成されるときに発生する。
複雑なノイズハンドリング技術は、モデルがこのラベルノイズに収まらないようにする必要があることが示されている。
BERTのような現代のNLPモデルを用いたテキスト分類タスクにおいて、様々なノイズタイプに対して、既存のノイズハンドリング手法は必ずしも性能を向上せず、さらに劣化する可能性があることを示す。
- 参考スコア(独自算出の注目度): 23.554544399110508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorrect labels in training data occur when human annotators make mistakes
or when the data is generated via weak or distant supervision. It has been
shown that complex noise-handling techniques - by modeling, cleaning or
filtering the noisy instances - are required to prevent models from fitting
this label noise. However, we show in this work that, for text classification
tasks with modern NLP models like BERT, over a variety of noise types, existing
noisehandling methods do not always improve its performance, and may even
deteriorate it, suggesting the need for further investigation. We also back our
observations with a comprehensive analysis.
- Abstract(参考訳): トレーニングデータの誤ったラベルは、人間のアノテータがミスをしたときや、弱いまたは遠い監視によってデータが生成されるときに発生する。
複雑なノイズ処理技術 (モデリング、クリーニング、あるいはノイズのあるインスタンスのフィルタリング) は、モデルがこのラベルノイズに収まらないよう要求されている。
しかし,本研究では,BERTのような現代のNLPモデルを用いたテキスト分類作業において,様々なノイズタイプに対して,既存のノイズ処理手法が常に性能を向上するわけではなく,さらに調査の必要性が示唆されている。
私たちはまた、包括的な分析で観察をバックアップします。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:20:31Z) - Noisy Label Processing for Classification: A Survey [2.8821062918162146]
長い、退屈なデータアノテーションのプロセスでは、アノテーションはミスをしがちで、画像のラベルが正しくない。
コンピュータビジョンタスク、特に分類タスクにおいて、ノイズの多いラベルと戦うことが不可欠である。
実世界のデータで導かれる合成ラベルノイズパターンを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-05T15:11:09Z) - Robust Tiny Object Detection in Aerial Images amidst Label Noise [50.257696872021164]
本研究は,ノイズラベル管理下での微小物体検出の問題に対処する。
本稿では,DN-TOD(Denoising Tiny Object Detector)を提案する。
本手法は,1段と2段の両方のオブジェクト検出パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-01-16T02:14:33Z) - Denoising Enhanced Distantly Supervised Ultrafine Entity Typing [36.14308856513851]
本研究では,未知のラベル付き雑音分布を入力コンテキストおよび雑音型ラベル上で推定するノイズモデルを構築した。
ノイズモデルにより、推定ノイズを入力から減じることで、より信頼できるラベルを復元することができる。
本稿では,バイエンコーダアーキテクチャを採用したエンティティ型付けモデルを提案する。
論文 参考訳(メタデータ) (2022-10-18T05:20:16Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Instance-dependent Label-noise Learning under a Structural Causal Model [92.76400590283448]
ラベルノイズはディープラーニングアルゴリズムの性能を劣化させる。
構造因果モデルを活用することにより,実例依存型ラベルノイズ学習のための新しい生成手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T10:42:54Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Towards Robustness to Label Noise in Text Classification via Noise
Modeling [7.863638253070439]
NLPの大規模なデータセットは、誤った自動および人間のアノテーション手順のために、ノイズの多いラベルに悩まされる。
本稿では,ラベルノイズを用いたテキスト分類の問題について検討し,分類器上での補助雑音モデルを用いてこのノイズを捉えることを目的とする。
論文 参考訳(メタデータ) (2021-01-27T05:41:57Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。