論文の概要: How to tackle an emerging topic? Combining strong and weak labels for
Covid news NER
- arxiv url: http://arxiv.org/abs/2209.15108v1
- Date: Thu, 29 Sep 2022 21:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:04:56.561227
- Title: How to tackle an emerging topic? Combining strong and weak labels for
Covid news NER
- Title(参考訳): 新たなトピックに取り組むには?
Covid News NERの強力なラベルと弱いラベルを組み合わせる
- Authors: Aleksander Ficek, Fangyu Liu, Nigel Collier
- Abstract要約: 新型コロナウイルスニュースNERデータセット(COVIDNEWS-NER)について紹介する。
手書きの強ラベル付き文3000点と,弱ラベル付き文13,000点を自動生成する。
弱ラベルと強ラベルを併用したトレーニングの分析を行い,ConTROSTERのCOVIDNEWS-NERに対する効果を示す。
- 参考スコア(独自算出の注目度): 90.90053968189156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being able to train Named Entity Recognition (NER) models for emerging topics
is crucial for many real-world applications especially in the medical domain
where new topics are continuously evolving out of the scope of existing models
and datasets. For a realistic evaluation setup, we introduce a novel COVID-19
news NER dataset (COVIDNEWS-NER) and release 3000 entries of hand annotated
strongly labelled sentences and 13000 auto-generated weakly labelled sentences.
Besides the dataset, we propose CONTROSTER, a recipe to strategically combine
weak and strong labels in improving NER in an emerging topic through transfer
learning. We show the effectiveness of CONTROSTER on COVIDNEWS-NER while
providing analysis on combining weak and strong labels for training. Our key
findings are: (1) Using weak data to formulate an initial backbone before
tuning on strong data outperforms methods trained on only strong or weak data.
(2) A combination of out-of-domain and in-domain weak label training is crucial
and can overcome saturation when being training on weak labels from a single
source.
- Abstract(参考訳): 新たなトピックに名前付きエンティティ認識(NER)モデルをトレーニングできることは、特に既存のモデルやデータセットの範囲から新たなトピックが継続的に進化している医療領域において、多くの実世界のアプリケーションにとって不可欠である。
現実的な評価のために,新しいcovid-19 news nerデータセット(covidnews-ner)を導入し,アノテーション付き強いラベル付き文3000項目と,弱いラベル付き文13000項目を自動生成する。
提案するConTROSTERは,トランスファー学習を通じてNERを改善するために,弱いラベルと強いラベルを戦略的に組み合わせたレシピである。
弱ラベルと強ラベルを併用したトレーニングの分析を行い,ConTROSTERのCOVIDNEWS-NERに対する効果を示す。
1) 弱いデータを用いて初期バックボーンを定式化し, 強いデータや弱いデータのみをトレーニングした手法よりも優れていることを示す。
2)ドメイン外とドメイン内弱いラベルトレーニングの組み合わせは不可欠であり、単一のソースから弱いラベルをトレーニングする場合、飽和を克服することができる。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News
Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。
LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。
LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文 参考訳(メタデータ) (2022-06-10T16:01:58Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - Named Entity Recognition with Small Strongly Labeled and Large Weakly
Labeled Data [37.980010197914105]
弱監視は、名前付きエンティティ認識(NER)など、多くの自然言語処理タスクにおいて有望な結果を示している。
本稿では,弱ラベル補完,雑音認識損失関数,強ラベル付きデータに対する最終微調整という,3つの重要な要素を持つ多段階計算フレームワークNEEDLEを提案する。
NEEDLEは、弱いラベルのノイズを効果的に抑制し、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T17:18:14Z) - Self-Training with Weak Supervision [32.68342091430266]
最先端のディープニューラルネットワークには、多くのタスクで入手するのに高価な大規模なラベル付きトレーニングデータが必要です。
ドメイン固有のルールの形での弱い監視は、そのような設定で有用であることが示されている。
我々は、与えられたタスクに利用可能なすべてのデータを活用する弱い監視フレームワーク(ASTRA)を開発する。
論文 参考訳(メタデータ) (2021-04-12T14:45:04Z) - Social Adaptive Module for Weakly-supervised Group Activity Recognition [143.68241396839062]
本稿では、弱教師付きグループ活動認識(GAR)と呼ばれる新しいタスクを提案する。
従来のGARタスクとは違い、ビデオレベルラベルのみが利用可能であるが、トレーニングデータにおいても、各フレーム内の重要人物は提供されない。
これにより、大規模なNBAデータセットの収集とアノテートが容易になり、GARに新たな課題が生まれます。
論文 参考訳(メタデータ) (2020-07-18T16:40:55Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z) - Named Entity Recognition without Labelled Data: A Weak Supervision
Approach [23.05371427663683]
本稿では,ラベル付きデータがない場合のNERモデルの学習方法を提案する。
このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存している。
シーケンスラベリングモデルは、最終的にこの統一アノテーションに基づいて訓練することができる。
論文 参考訳(メタデータ) (2020-04-30T12:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。