論文の概要: A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2305.12485v2
- Date: Thu, 27 Jul 2023 10:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 19:50:14.448467
- Title: A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition
- Title(参考訳): 集合アノテーション付き名前付きエンティティ認識のための信頼に基づく部分ラベル学習モデル
- Authors: Limao Xiong, Jie Zhou, Qunxi Zhu, Xiao Wang, Yuanbin Wu, Qi Zhang, Tao
Gui, Xuanjing Huang, Jin Ma, Ying Shan
- Abstract要約: 名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
- 参考スコア(独自算出の注目度): 74.79785063365289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing models for named entity recognition (NER) are mainly based on
large-scale labeled datasets, which always obtain using crowdsourcing. However,
it is hard to obtain a unified and correct label via majority voting from
multiple annotators for NER due to the large labeling space and complexity of
this task. To address this problem, we aim to utilize the original
multi-annotator labels directly. Particularly, we propose a Confidence-based
Partial Label Learning (CPLL) method to integrate the prior confidence (given
by annotators) and posterior confidences (learned by models) for
crowd-annotated NER. This model learns a token- and content-dependent
confidence via an Expectation-Maximization (EM) algorithm by minimizing
empirical risk. The true posterior estimator and confidence estimator perform
iteratively to update the true posterior and confidence respectively. We
conduct extensive experimental results on both real-world and synthetic
datasets, which show that our model can improve performance effectively
compared with strong baselines.
- Abstract(参考訳): 名前付きエンティティ認識(NER)の既存のモデルは、主に大規模ラベル付きデータセットに基づいており、常にクラウドソーシングを用いて取得される。
しかし、大きなラベル付け空間とこのタスクの複雑さのため、NERの複数のアノテータから多数決によって統一された正しいラベルを得るのは難しい。
この問題に対処するため,我々は,元々のマルチアノテーションラベルを直接利用することを目指している。
特に,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
このモデルは,経験的リスクを最小限に抑えて,期待最大化(EM)アルゴリズムを用いてトークンとコンテンツに依存した信頼度を学習する。
真後推定器と信頼推定器とを反復的に行い、真後推定器と信頼度をそれぞれ更新する。
実世界のデータセットと合成データセットの両方で広範囲に実験を行い、強力なベースラインと比較して性能を効果的に向上できることを示す。
関連論文リスト
- Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。
既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。
本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-09T13:26:21Z) - Uncertainty-aware self-training with expectation maximization basis transformation [9.7527450662978]
モデルとデータセットの両方の不確実性情報を組み合わせるための,新たな自己学習フレームワークを提案する。
具体的には,ラベルをスムースにし,不確実性情報を包括的に推定するために期待最大化(EM)を提案する。
論文 参考訳(メタデータ) (2024-05-02T11:01:31Z) - CAST: Cluster-Aware Self-Training for Tabular Data via Reliable Confidence [0.4999814847776098]
自己学習は、誤った自信によって引き起こされるノイズの多い擬似ラベルに対して脆弱である。
CAST(Cluster-Aware Self-Training)は、既存の自己学習アルゴリズムを無視可能なコストで強化する。
論文 参考訳(メタデータ) (2023-10-10T07:46:54Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Confidence-Aware Calibration and Scoring Functions for Curriculum
Learning [1.192436948211501]
モデルのキャリブレーションと一般化を向上するために,ラベル平滑化によるモデル信頼と人間信頼の概念を統合した。
より高いモデルまたは人間の信頼度スコアは、より認識可能でより簡単なサンプルを示すため、カリキュラム学習においてサンプルをランク付けするスコア関数として使用できる。
論文 参考訳(メタデータ) (2023-01-29T23:59:40Z) - How Does Beam Search improve Span-Level Confidence Estimation in
Generative Sequence Labeling? [11.481435098152893]
本稿では,生成配列ラベリングにおけるモデル信頼度の推定に関する実証的な知見を提供する。
6つの公開データセットで検証した結果,提案手法は生成配列ラベルモデルのキャリブレーション誤差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2022-12-21T05:01:01Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Learning from Similarity-Confidence Data [94.94650350944377]
類似度信頼性(Sconf)データから学習する新しい弱監督学習問題について検討する。
本研究では,Sconfデータのみから計算可能な分類リスクの非バイアス推定器を提案し,推定誤差境界が最適収束率を達成することを示す。
論文 参考訳(メタデータ) (2021-02-13T07:31:16Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。