論文の概要: Re-Examine Distantly Supervised NER: A New Benchmark and a Simple
Approach
- arxiv url: http://arxiv.org/abs/2402.14948v1
- Date: Thu, 22 Feb 2024 20:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:28:10.222746
- Title: Re-Examine Distantly Supervised NER: A New Benchmark and a Simple
Approach
- Title(参考訳): Re-Examine Distantly Supervised NER:新しいベンチマークと簡単なアプローチ
- Authors: Yuepei Li, Kang Zhou, Qiao Qiao, Qing Wang and Qi Li
- Abstract要約: 我々は,QTLという実世界のベンチマークデータセットを用いて,現在のDS-NER手法の有効性を批判的に評価する。
我々は,学習過程において,より簡単でクリーンなサンプルを戦略的に開始し,ノイズのあるサンプルに対するモデルのレジリエンスを高めるための,カリキュラムベースのポジティブ・アンラベルラーニングCuPULを紹介した。
- 参考スコア(独自算出の注目度): 15.87963432758696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper delves into Named Entity Recognition (NER) under the framework of
Distant Supervision (DS-NER), where the main challenge lies in the compromised
quality of labels due to inherent errors such as false positives, false
negatives, and positive type errors. We critically assess the efficacy of
current DS-NER methodologies using a real-world benchmark dataset named QTL,
revealing that their performance often does not meet expectations. To tackle
the prevalent issue of label noise, we introduce a simple yet effective
approach, Curriculum-based Positive-Unlabeled Learning CuPUL, which
strategically starts on "easy" and cleaner samples during the training process
to enhance model resilience to noisy samples. Our empirical results highlight
the capability of CuPUL to significantly reduce the impact of noisy labels and
outperform existing methods.
- Abstract(参考訳): 本稿では,偽陽性,偽陰性,陽性型エラーといった固有の誤りにより,ラベルの品質が損なわれることが主な課題である,遠方監視(ds-ner)の枠組みの下で,名前付きエンティティ認識(ner)を展開する。
QTLと呼ばれる実世界のベンチマークデータセットを用いて,現在のDS-NER手法の有効性を批判的に評価し,その性能が期待を満たさないことを明らかにする。
ラベルノイズの一般的な問題に取り組むために,学習過程において「簡単な」サンプルとよりクリーンなサンプルを戦略的に開始し,ノイズサンプルに対するモデルのレジリエンスを高めるための,カリキュラムベースのポジティブ・アンラベル学習キュープルという,単純かつ効果的なアプローチを導入する。
実験結果から,CuPULはノイズラベルの影響を著しく低減し,既存手法より優れていることを示す。
関連論文リスト
- Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Revisiting Class Imbalance for End-to-end Semi-Supervised Object
Detection [1.6249267147413524]
半教師付きオブジェクト検出(SSOD)は、擬似ラベルに基づくエンドツーエンド手法の開発において大きな進歩を遂げている。
多くの手法は、擬似ラベルジェネレータの有効性を妨げるクラス不均衡のため、課題に直面している。
本稿では,低品質な擬似ラベルの根本原因と,ラベル生成品質を改善するための新しい学習メカニズムについて検討する。
論文 参考訳(メタデータ) (2023-06-04T06:01:53Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Label Noise-Robust Learning using a Confidence-Based Sieving Strategy [15.997774467236352]
ラベルノイズを伴うタスクの学習では、オーバーフィッティングに対するモデルの堅牢性を改善することが重要な課題である。
サンプルをノイズのあるラベルで識別し、モデルを学習するのを防ぐことは、この課題に対処するための有望なアプローチである。
本研究では, 信頼度誤差と呼ばれる新しい判別基準と, クリーンサンプルとノイズサンプルを効果的に識別するためのCONFESと呼ばれるシービング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:47:28Z) - Towards Harnessing Feature Embedding for Robust Learning with Noisy
Labels [44.133307197696446]
ディープニューラルネットワーク(DNN)の記憶効果は,近年のラベルノイズ学習法において重要な役割を担っている。
ラベルノイズを用いたディープラーニングのための新しい特徴埋め込み方式, LabEl Noise Dilution (LEND) を提案する。
論文 参考訳(メタデータ) (2022-06-27T02:45:09Z) - Uncertainty-aware Pseudo-label Selection for Positive-Unlabeled Learning [10.014356492742074]
本稿では,正の未ラベル学習環境における不均衡データセットとモデル校正の問題に取り組むことを提案する。
マイノリティクラスからのシグナルを増強することにより、擬似ラベル付けはラベル付きデータセットをラベル付きデータセットから新しいサンプルで拡張する。
PUUPLは一連の実験において、高度に不均衡な設定で大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2022-01-31T12:55:47Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。