論文の概要: Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances
- arxiv url: http://arxiv.org/abs/2310.16790v1
- Date: Wed, 25 Oct 2023 17:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:21:13.226109
- Title: Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances
- Title(参考訳): ほとんどクリーンなインスタンスによるノイズデータに基づく名前付きエンティティ認識の改善
- Authors: Zhendong Chu, Ruiyi Zhang, Tong Yu, Rajiv Jain, Vlad I Morariu,
Jiuxiang Gu, Ani Nenkova
- Abstract要約: クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
- 参考スコア(独自算出の注目度): 55.37242480995541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To achieve state-of-the-art performance, one still needs to train NER models
on large-scale, high-quality annotated data, an asset that is both costly and
time-intensive to accumulate. In contrast, real-world applications often resort
to massive low-quality labeled data through non-expert annotators via
crowdsourcing and external knowledge bases via distant supervision as a
cost-effective alternative. However, these annotation methods result in noisy
labels, which in turn lead to a notable decline in performance. Hence, we
propose to denoise the noisy NER data with guidance from a small set of clean
instances. Along with the main NER model we train a discriminator model and use
its outputs to recalibrate the sample weights. The discriminator is capable of
detecting both span and category errors with different discriminative prompts.
Results on public crowdsourcing and distant supervision datasets show that the
proposed method can consistently improve performance with a small guidance set.
- Abstract(参考訳): 最先端のパフォーマンスを達成するためには、NERモデルを大規模で高品質な注釈付きデータでトレーニングする必要がある。
対照的に、現実世界のアプリケーションは、クラウドソーシングや外部知識ベースを通じて、費用対効果のある代替手段として、非専門家アノテータを通じて、大量の低品質ラベル付きデータを利用することが多い。
しかし、これらのアノテーションメソッドはノイズラベルを発生させ、結果としてパフォーマンスが著しく低下する。
したがって、ノイズの多いNERデータを小さなクリーンなインスタンスから誘導することで、ノイズを発生させる。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプル重量を補正します。
判別器は、識別プロンプトが異なるスパン及びカテゴリエラーの両方を検出することができる。
一般のクラウドソーシングと遠隔監視データセットの結果,提案手法は小規模のガイダンスセットで一貫して性能を向上できることがわかった。
関連論文リスト
- Re-Examine Distantly Supervised NER: A New Benchmark and a Simple
Approach [15.87963432758696]
我々は,QTLという実世界のベンチマークデータセットを用いて,現在のDS-NER手法の有効性を批判的に評価する。
ラベルノイズの一般的な問題に対処するため,カリキュラムベースのポジティブ・アンラベル学習CuPULを提案する。
実験の結果,CuPULはノイズラベルの影響を著しく低減し,既存手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-02-22T20:07:02Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Feature Diversity Learning with Sample Dropout for Unsupervised Domain
Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。
我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。
実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-01-25T10:10:48Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Meta-Learning for Neural Relation Classification with Distant
Supervision [38.755055486296435]
本稿では,参照データの指導の下で,雑音の多い学習データを重み付けするメタラーニング手法を提案する。
いくつかのデータセットの実験では、参照データがトレーニングデータの選択を効果的にガイドできることが示されている。
論文 参考訳(メタデータ) (2020-10-26T12:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。