論文の概要: DynClean: Training Dynamics-based Label Cleaning for Distantly-Supervised Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2504.04616v1
- Date: Sun, 06 Apr 2025 20:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:38.944847
- Title: DynClean: Training Dynamics-based Label Cleaning for Distantly-Supervised Named Entity Recognition
- Title(参考訳): DynClean: 遠隔監視型名前付きエンティティ認識のためのトレーニングダイナミクスベースのラベルクリーニング
- Authors: Qi Zhang, Huitong Pan, Zhijia Chen, Longin Jan Latecki, Cornelia Caragea, Eduard Dragut,
- Abstract要約: 本稿では,トレーニングの進行に伴うモデルの挙動を生かした,トレーニングダイナミクスに基づくラベルクリーニング手法を提案する。
また,遠隔ラベルの誤りを見つけるための自動しきい値推定手法も導入する。
提案手法は,4つのデータセットにまたがる高度なDS-NER手法よりも優れている。
- 参考スコア(独自算出の注目度): 49.54155332262579
- License:
- Abstract: Distantly Supervised Named Entity Recognition (DS-NER) has attracted attention due to its scalability and ability to automatically generate labeled data. However, distant annotation introduces many mislabeled instances, limiting its performance. Most of the existing work attempt to solve this problem by developing intricate models to learn from the noisy labels. An alternative approach is to attempt to clean the labeled data, thus increasing the quality of distant labels. This approach has received little attention for NER. In this paper, we propose a training dynamics-based label cleaning approach, which leverages the behavior of a model as training progresses to characterize the distantly annotated samples. We also introduce an automatic threshold estimation strategy to locate the errors in distant labels. Extensive experimental results demonstrate that: (1) models trained on our cleaned DS-NER datasets, which were refined by directly removing identified erroneous annotations, achieve significant improvements in F1-score, ranging from 3.18% to 8.95%; and (2) our method outperforms numerous advanced DS-NER approaches across four datasets.
- Abstract(参考訳): Distantly Supervised Named Entity Recognition (DS-NER) はスケーラビリティとラベル付きデータの自動生成能力によって注目を集めている。
しかし、遠方のアノテーションは多くの誤ラベルされたインスタンスを導入し、パフォーマンスを制限します。
既存の作業のほとんどは、ノイズラベルから学ぶために複雑なモデルを開発することで、この問題を解決しようとするものである。
別のアプローチとして、ラベル付きデータをクリーン化して、遠隔ラベルの品質を高める方法がある。
このアプローチはNERにとってほとんど注目されていない。
本稿では,トレーニングの進行に伴うモデルの挙動を活かし,遠方からの注釈付きサンプルを特徴付けるトレーニングダイナミックスに基づくラベルクリーニング手法を提案する。
また,遠隔ラベルの誤りを見つけるための自動しきい値推定手法も導入する。
その結果,(1) DS-NERデータセットをトレーニングしたモデルでは, 同一のアノテーションを直接削除することでF1スコアが3.18%から8.95%まで大幅に改善され, 2) 提案手法は4つのデータセットにまたがる高度なDS-NERアプローチよりも優れていた。
関連論文リスト
- Efficient Adaptive Label Refinement for Label Noise Learning [14.617885790129336]
本稿では,不適切なラベルを回避し,クリーンなサンプルを徹底的に学習するための適応ラベル精製(ALR)を提案する。
ALRは単純で効率的であり、ノイズや補助的なデータセットに関する事前の知識を必要としない。
人工ラベルノイズ付きベンチマークデータセット(CIFAR-10/100)と固有ノイズ付き実世界のデータセット(ANIMAL-10N, Clothing1M, WebVision)を用いて、ALRの有効性を検証する。
論文 参考訳(メタデータ) (2025-02-01T09:58:08Z) - Mitigating Instance-Dependent Label Noise: Integrating Self-Supervised Pretraining with Pseudo-Label Refinement [3.272177633069322]
実世界のデータセットは、アノテーションプロセス中にヒューマンエラー、あいまいさ、リソース制約のために、ノイズの多いラベルを含むことが多い。
そこで本研究では,SimCLRを用いた自己教師型学習と反復的擬似ラベル改良を組み合わせた新しいフレームワークを提案する。
提案手法は,特に高騒音条件下では,いくつかの最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-06T09:56:49Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Unsupervised Domain Adaptive Salient Object Detection Through
Uncertainty-Aware Pseudo-Label Learning [104.00026716576546]
そこで本研究では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成・クリーンなラベルから,サリエンスを学習することを提案する。
提案手法は,複数のベンチマークデータセット上で,既存の最先端の深層教師なしSOD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-26T16:03:55Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant
Supervision [49.42215511723874]
我々は,NERモデルの予測性能を改善するための新しい計算フレームワーク,BONDを提案する。
具体的には,2段階の学習アルゴリズムを提案する。第1段階では,遠隔ラベルを用いて,事前学習された言語モデルをNERタスクに適用する。
第2段階では,遠隔ラベルを廃止し,モデル性能をさらに向上するための自己学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T04:55:39Z) - Named Entity Recognition without Labelled Data: A Weak Supervision
Approach [23.05371427663683]
本稿では,ラベル付きデータがない場合のNERモデルの学習方法を提案する。
このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存している。
シーケンスラベリングモデルは、最終的にこの統一アノテーションに基づいて訓練することができる。
論文 参考訳(メタデータ) (2020-04-30T12:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。