論文の概要: NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2405.07609v2
- Date: Mon, 14 Oct 2024 10:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:49.040992
- Title: NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition
- Title(参考訳): NoiseBench: 名前付きエンティティ認識における実ラベルノイズの影響のベンチマーク
- Authors: Elena Merdjanovska, Ansar Aynetdinov, Alan Akbik,
- Abstract要約: そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
- 参考スコア(独自算出の注目度): 3.726602636064681
- License:
- Abstract: Available training data for named entity recognition (NER) often contains a significant percentage of incorrect labels for entity types and entity boundaries. Such label noise poses challenges for supervised learning and may significantly deteriorate model quality. To address this, prior work proposed various noise-robust learning approaches capable of learning from data with partially incorrect labels. These approaches are typically evaluated using simulated noise where the labels in a clean dataset are automatically corrupted. However, as we show in this paper, this leads to unrealistic noise that is far easier to handle than real noise caused by human error or semi-automatic annotation. To enable the study of the impact of various types of real noise, we introduce NoiseBench, an NER benchmark consisting of clean training data corrupted with 6 types of real noise, including expert errors, crowdsourcing errors, automatic annotation errors and LLM errors. We present an analysis that shows that real noise is significantly more challenging than simulated noise, and show that current state-of-the-art models for noise-robust learning fall far short of their theoretically achievable upper bound. We release NoiseBench to the research community.
- Abstract(参考訳): 名前付きエンティティ認識(NER)のためのトレーニングデータには、エンティティタイプやエンティティ境界に対する誤ったラベルのかなりの割合が含まれていることが多い。
このようなラベルノイズは教師付き学習の課題を引き起こし、モデル品質を著しく劣化させる可能性がある。
これを解決するために、先行研究は、部分的に不正確なラベルを持つデータから学習できる様々なノイズロバスト学習手法を提案した。
これらのアプローチは通常、クリーンデータセットのラベルが自動的に破損するシミュレーションノイズを使用して評価される。
しかし、本稿で示すように、これは人間の誤りや半自動アノテーションによる実際のノイズよりも扱いやすい非現実的なノイズにつながる。
各種実雑音の影響について検討するために,エキスパートエラー,クラウドソーシングエラー,自動アノテーションエラー,LLMエラーを含む6種類の実雑音で破損したクリーントレーニングデータからなるNERベンチマークであるNossBenchを紹介する。
本研究では, 実雑音が実雑音よりもはるかに困難であることを示す解析を行い, 理論的に達成可能な上界よりも, 現状のノイズロスト学習モデルの方がはるかに劣っていることを示す。
我々は研究コミュニティにNossBenchをリリースします。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in
Natural Language Processing [26.678589684142548]
実世界の大規模なデータセットには、必然的にラベルノイズが伴う。
ディープモデルはノイズの多いラベルに徐々に適合し、一般化性能を低下させる。
ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)による学習は,より優れた一般化性能を実現するために設計されている。
論文 参考訳(メタデータ) (2023-05-18T05:01:04Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Noise tolerance of learning to rank under class-conditional label noise [1.14219428942199]
経験的リスク最小化が一貫した手順である耐雑音性LtR損失のクラスについて述べる。
また、一般的に使われている損失関数の耐雑音性アナログも開発する。
論文 参考訳(メタデータ) (2022-08-03T15:04:48Z) - Is BERT Robust to Label Noise? A Study on Learning with Noisy Labels in
Text Classification [23.554544399110508]
トレーニングデータの誤りラベルは、人間のアノテータがミスをしたときや、弱いまたは遠い監視によってデータが生成されるときに発生する。
複雑なノイズハンドリング技術は、モデルがこのラベルノイズに収まらないようにする必要があることが示されている。
BERTのような現代のNLPモデルを用いたテキスト分類タスクにおいて、様々なノイズタイプに対して、既存のノイズハンドリング手法は必ずしも性能を向上せず、さらに劣化する可能性があることを示す。
論文 参考訳(メタデータ) (2022-04-20T10:24:19Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Analysing the Noise Model Error for Realistic Noisy Label Data [14.766574408868806]
本研究では,ノイズモデルの予測誤差を導出して,理論的な側面から推定ノイズモデルの品質について検討する。
NLPドメインから新たなノイズラベルデータセットであるNoisyNERも公開しています。
論文 参考訳(メタデータ) (2021-01-24T17:45:15Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Towards Noise-resistant Object Detection with Noisy Annotations [119.63458519946691]
ディープオブジェクト検出器の訓練には、正確なオブジェクトラベルとバウンディングボックス座標を持つ、相当量の人間の注釈画像が必要である。
ノイズの多いアノテーションはずっと簡単にアクセスできますが、学習には有害かもしれません。
ノイズにはラベルノイズとバウンディングボックスノイズが混在している。
論文 参考訳(メタデータ) (2020-03-03T01:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。