論文の概要: Noisy-Labeled NER with Confidence Estimation
- arxiv url: http://arxiv.org/abs/2104.04318v2
- Date: Mon, 12 Apr 2021 11:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 11:20:29.941092
- Title: Noisy-Labeled NER with Confidence Estimation
- Title(参考訳): 信頼度推定を用いた雑音ラベルNER
- Authors: Kun Liu, Yao Fu, Chuanqi Tan, Mosha Chen, Ningyu Zhang, Songfang
Huang, Sheng Gao
- Abstract要約: 現実のシナリオにおける根本的な課題は、様々なソースからの大量のノイズである。
本研究は,信頼度を校正したノイズラベル設定下でnerを学習する。
- 参考スコア(独自算出の注目度): 22.993500006298717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in deep learning have shown significant progress in named
entity recognition (NER). Most existing works assume clean data annotation, yet
a fundamental challenge in real-world scenarios is the large amount of noise
from a variety of sources (e.g., pseudo, weak, or distant annotations). This
work studies NER under a noisy labeled setting with calibrated confidence
estimation. Based on empirical observations of different training dynamics of
noisy and clean labels, we propose strategies for estimating confidence scores
based on local and global independence assumptions. We partially marginalize
out labels of low confidence with a CRF model. We further propose a calibration
method for confidence scores based on the structure of entity labels. We
integrate our approach into a self-training framework for boosting performance.
Experiments in general noisy settings with four languages and distantly labeled
settings demonstrate the effectiveness of our method. Our code can be found at
https://github.com/liukun95/Noisy-NER-Confidence-Estimation
- Abstract(参考訳): 深層学習における最近の研究は、名前付き実体認識(NER)において大きな進歩を示している。
既存の作品の多くはクリーンなデータアノテーションを前提としているが、現実世界のシナリオにおける基本的な課題は、様々なソース(例えば、疑似、弱、遠方のアノテーション)からの大量のノイズである。
本研究は,信頼度を校正したノイズラベル設定下でnerを学習する。
ノイズラベルとクリーンラベルの異なるトレーニングダイナミクスに関する経験的観察に基づいて,局所的およびグローバル的独立性仮定に基づく信頼度スコアの推定手法を提案する。
信頼性の低いラベルをCRFモデルで部分的にマージする。
さらに,エンティティラベルの構造に基づく信頼度スコアの校正手法を提案する。
当社のアプローチを,パフォーマンス向上のための自己学習フレームワークに統合しています。
4言語と遠隔ラベル付き設定を用いた一般雑音環境実験により,提案手法の有効性が示された。
私たちのコードはhttps://github.com/liukun95/Noisy-NER-Confidence-Estimationにある。
関連論文リスト
- Pearls from Pebbles: Improved Confidence Functions for Auto-labeling [51.44986105969375]
しきい値に基づく自動ラベル付け(TBAL)は、上記のモデルの信頼度スコアのしきい値を見つけ、ラベルなしのデータポイントを正確にラベル付けすることで機能する。
本稿では,近位TBAL信頼度関数の研究のための枠組みを提案する。
本稿では,TBALシステムの性能を最大化するポストホック法を提案する。
論文 参考訳(メタデータ) (2024-04-24T20:22:48Z) - Re-Examine Distantly Supervised NER: A New Benchmark and a Simple
Approach [15.87963432758696]
我々は,QTLという実世界のベンチマークデータセットを用いて,現在のDS-NER手法の有効性を批判的に評価する。
ラベルノイズの一般的な問題に対処するため,カリキュラムベースのポジティブ・アンラベル学習CuPULを提案する。
実験の結果,CuPULはノイズラベルの影響を著しく低減し,既存手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-02-22T20:07:02Z) - FedDiv: Collaborative Noise Filtering for Federated Learning with Noisy
Labels [99.70895640578816]
雑音ラベル付きフェデレーション学習(F-LNL)は,協調型分散学習を通じて最適なサーバモデルを求めることを目的としている。
我々はF-LNLの課題に取り組むためにFedDivを提案し、特にフェデレートノイズフィルタと呼ばれるグローバルノイズフィルタを提案する。
論文 参考訳(メタデータ) (2023-12-19T15:46:47Z) - Rethinking Noisy Label Learning in Real-world Annotation Scenarios from
the Noise-type Perspective [38.24239397999152]
本稿では,雑音ラベル学習のためのサンプル選択に基づく新しい手法であるProto-semiを提案する。
Proto-semiは、すべてのサンプルをウォームアップを通じて信頼性と信頼できないデータセットに分割する。
自信のあるデータセットを活用することで、プロトタイプベクターがクラス特性をキャプチャするために構築される。
実世界の注釈付きデータセットの実証評価は、ノイズラベルから学習する問題の処理において、プロトセミの頑健さを裏付けるものである。
論文 参考訳(メタデータ) (2023-07-28T10:57:38Z) - Confidence Estimation Using Unlabeled Data [12.512654188295764]
トレーニングラベルがほとんど利用できない場合, 半教師付き設定に対する最初の信頼度推定法を提案する。
トレーニングの一貫性を代理関数として使用し、信頼度推定のための一貫性ランキング損失を提案する。
画像分類とセグメンテーションの両方のタスクにおいて,本手法は信頼度推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-19T20:11:30Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - Robust Point Cloud Segmentation with Noisy Annotations [32.991219357321334]
クラスラベルは、実世界のデータセットのインスタンスレベルとバウンダリレベルの両方で誤ってラベル付けされることが多い。
我々は、Point Noise-Adaptive Learningフレームワークを提案することで、インスタンスレベルのラベルノイズを解決するのをリードする。
我々のフレームワークはベースラインを大幅に上回り、完全にクリーンなデータでトレーニングされた上限に匹敵する。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Confidence Scores Make Instance-dependent Label-noise Learning Possible [129.84497190791103]
ノイズのあるラベルで学習する際、そのラベルはノイズモデルと呼ばれる遷移分布に従ってランダムに他のクラスに移動することができる。
我々は、各インスタンスラベル対に信頼スコアを付与する、信頼スコア付きインスタンス依存ノイズ(CSIDN)を導入する。
信頼性スコアの助けを借りて、各インスタンスの遷移分布を推定できる。
論文 参考訳(メタデータ) (2020-01-11T16:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。