論文の概要: Named Entity Recognition with Small Strongly Labeled and Large Weakly
Labeled Data
- arxiv url: http://arxiv.org/abs/2106.08977v1
- Date: Wed, 16 Jun 2021 17:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:48:40.895579
- Title: Named Entity Recognition with Small Strongly Labeled and Large Weakly
Labeled Data
- Title(参考訳): 小さな強いラベル付きと大きな弱いラベル付きデータによる名前付きエンティティ認識
- Authors: Haoming Jiang, Danqing Zhang, Tianyu Cao, Bing Yin, Tuo Zhao
- Abstract要約: 弱監視は、名前付きエンティティ認識(NER)など、多くの自然言語処理タスクにおいて有望な結果を示している。
本稿では,弱ラベル補完,雑音認識損失関数,強ラベル付きデータに対する最終微調整という,3つの重要な要素を持つ多段階計算フレームワークNEEDLEを提案する。
NEEDLEは、弱いラベルのノイズを効果的に抑制し、既存の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 37.980010197914105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weak supervision has shown promising results in many natural language
processing tasks, such as Named Entity Recognition (NER). Existing work mainly
focuses on learning deep NER models only with weak supervision, i.e., without
any human annotation, and shows that by merely using weakly labeled data, one
can achieve good performance, though still underperforms fully supervised NER
with manually/strongly labeled data. In this paper, we consider a more
practical scenario, where we have both a small amount of strongly labeled data
and a large amount of weakly labeled data. Unfortunately, we observe that
weakly labeled data does not necessarily improve, or even deteriorate the model
performance (due to the extensive noise in the weak labels) when we train deep
NER models over a simple or weighted combination of the strongly labeled and
weakly labeled data. To address this issue, we propose a new multi-stage
computational framework -- NEEDLE with three essential ingredients: (1) weak
label completion, (2) noise-aware loss function, and (3) final fine-tuning over
the strongly labeled data. Through experiments on E-commerce query NER and
Biomedical NER, we demonstrate that NEEDLE can effectively suppress the noise
of the weak labels and outperforms existing methods. In particular, we achieve
new SOTA F1-scores on 3 Biomedical NER datasets: BC5CDR-chem 93.74,
BC5CDR-disease 90.69, NCBI-disease 92.28.
- Abstract(参考訳): 弱監視は、名前付きエンティティ認識(NER)など、多くの自然言語処理タスクにおいて有望な結果を示している。
既存の研究は、人間のアノテーションを使わずに、より深いNERモデルを学習することのみに焦点を当てており、単に弱いラベル付きデータを使用することで、優れたパフォーマンスを達成できるが、手動/強くラベル付けされたデータで完全に教師されたNERの性能は低い。
本稿では,少量の強ラベル付きデータと大量の弱ラベル付きデータの両方を持つ,より実践的なシナリオについて考察する。
残念なことに、弱いラベル付きデータが必ずしも改善されないか、あるいは(弱いラベルの広範なノイズのため)モデル性能を低下させ、強いラベル付きおよび弱いラベル付きデータの単純または重み付けされた組み合わせで深部NERモデルを訓練する。
この問題に対処するために,(1)弱いラベル補完,(2)ノイズ認識損失関数,(3)強いラベル付きデータに対する最終的な微調整という3つの必須成分を持つ,新しい多段階計算フレームワークを提案する。
電子商取引クエリNERとバイオメディカルNERの実験を通じて、NEEDLEは弱いラベルのノイズを効果的に抑制し、既存の手法より優れていることを示す。
特にBC5CDR-chem 93.74,BC5CDR-disease 90.69,NCBI-disease 92.28。
関連論文リスト
- Re-Examine Distantly Supervised NER: A New Benchmark and a Simple
Approach [15.87963432758696]
我々は,QTLという実世界のベンチマークデータセットを用いて,現在のDS-NER手法の有効性を批判的に評価する。
ラベルノイズの一般的な問題に対処するため,カリキュラムベースのポジティブ・アンラベル学習CuPULを提案する。
実験の結果,CuPULはノイズラベルの影響を著しく低減し,既存手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-02-22T20:07:02Z) - Learning under Label Noise through Few-Shot Human-in-the-Loop Refinement [37.4838454216137]
FHLR(Few-Shot Human-in-the-Loop Refinement)は、雑音ラベル学習のための新しいソリューションである。
雑音ラベルから学習するとFHLRの性能が著しく向上することを示す。
我々の研究は、ハイテイクなヘルスセンシングベンチマークでより良い一般化を達成するだけでなく、ノイズが一般的に使われているモデルにどのように影響するかにも光を当てています。
論文 参考訳(メタデータ) (2024-01-25T11:43:35Z) - Enhancing Label Consistency on Document-level Named Entity Recognition [19.249781091058605]
名前付きエンティティ認識(NER)は、バイオメディカル応用における文書から情報を抽出する基本的な部分である。
提案手法であるConNERは,修飾子(形容詞や前置詞など)のラベル依存性を高め,より高いラベルアグリーメントを実現する。
本手法の有効性を4つの生物医学的NERデータセットで実証した。
論文 参考訳(メタデータ) (2022-10-24T04:45:17Z) - How to tackle an emerging topic? Combining strong and weak labels for
Covid news NER [90.90053968189156]
新型コロナウイルスニュースNERデータセット(COVIDNEWS-NER)について紹介する。
手書きの強ラベル付き文3000点と,弱ラベル付き文13,000点を自動生成する。
弱ラベルと強ラベルを併用したトレーニングの分析を行い,ConTROSTERのCOVIDNEWS-NERに対する効果を示す。
論文 参考訳(メタデータ) (2022-09-29T21:33:02Z) - Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News
Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。
LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。
LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文 参考訳(メタデータ) (2022-06-10T16:01:58Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。