論文の概要: A Noise-Robust Loss for Unlabeled Entity Problem in Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2208.02934v1
- Date: Fri, 5 Aug 2022 00:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:04:35.816426
- Title: A Noise-Robust Loss for Unlabeled Entity Problem in Named Entity
Recognition
- Title(参考訳): 名前付きエンティティ認識におけるラベル付きエンティティ問題に対するノイズロス
- Authors: Wentao Kang, Guijun Zhang, Xiao Fu
- Abstract要約: 我々は、未ラベルデータに対処するNRCESと呼ばれる新しい損失関数を提案する。
合成および実世界のデータセットの実験により、厳密なラベル付き実体問題の場合、我々のアプローチは強い堅牢性を示すことが示された。
- 参考スコア(独自算出の注目度): 9.321777368120658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) is an important task in natural language
processing. However, traditional supervised NER requires large-scale annotated
datasets. Distantly supervision is proposed to alleviate the massive demand for
datasets, but datasets constructed in this way are extremely noisy and have a
serious unlabeled entity problem. The cross entropy (CE) loss function is
highly sensitive to unlabeled data, leading to severe performance degradation.
As an alternative, we propose a new loss function called NRCES to cope with
this problem. A sigmoid term is used to mitigate the negative impact of noise.
In addition, we balance the convergence and noise tolerance of the model
according to samples and the training process. Experiments on synthetic and
real-world datasets demonstrate that our approach shows strong robustness in
the case of severe unlabeled entity problem, achieving new state-of-the-art on
real-world datasets.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は自然言語処理において重要なタスクである。
しかし、従来の教師付きNERは大規模な注釈付きデータセットを必要とする。
データセットの膨大な需要を軽減するために、遠隔監視が提案されているが、このような方法で構築されたデータセットは非常に騒々しく、ラベルなしのエンティティ問題を抱えている。
クロスエントロピー(CE)損失関数はラベルのないデータに非常に敏感であり、性能が著しく低下する。
代替として、この問題に対処するNRCESと呼ばれる新しい損失関数を提案する。
雑音の負の影響を軽減するためにシグモイド項が用いられる。
さらに,モデルの収束性とノイズ耐性をサンプルとトレーニングプロセスに応じてバランスさせる。
合成および実世界のデータセットに関する実験は、重度にラベルのないエンティティ問題に対して強い堅牢性を示し、実世界のデータセットで新たな最先端を達成することを実証する。
関連論文リスト
- An Embedding is Worth a Thousand Noisy Labels [0.11999555634662634]
本稿では,重み付けされたアダプティブNearest Neighborアプローチを用いてラベルノイズに対処するWANNを提案する。
WANNの参照手法は、様々な大きさの多様なデータセットや、様々なノイズタイプや重大さで優れていることを示す。
私たちのアプローチは、効率性と説明可能性を強調し、ディープニューラルネットワークトレーニングの固有の制限を克服するための、シンプルで堅牢なソリューションとして現れます。
論文 参考訳(メタデータ) (2024-08-26T15:32:31Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Learning Noise-Robust Joint Representation for Multimodal Emotion Recognition under Incomplete Data Scenarios [23.43319138048058]
実践シナリオにおけるマルチモーダル感情認識(MER)は、欠落したデータや不完全なデータの存在によって著しく困難である。
従来の手法では、データを捨てたり、データセグメントをゼロベクトルで置換することで、これらの不完全性を近似することが多い。
本稿では,雑音データから頑健なマルチモーダル関節表現を効果的に学習する新しいノイズローバストMERモデルを提案する。
論文 参考訳(メタデータ) (2023-09-21T10:49:02Z) - Uncertainty-aware Self-training for Low-resource Neural Sequence
Labeling [29.744621356187764]
本稿では,ニューラルシークエンスラベリング(NSL)のための新しい未知の自己学習フレームワークSeqUSTを提案する。
ベイジアンニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い、ラベルのないデータから信頼性の高い言語トークンを選択する。
ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。
論文 参考訳(メタデータ) (2023-02-17T02:40:04Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Empirical Analysis of Unlabeled Entity Problem in Named Entity
Recognition [47.273602658066196]
多くのシナリオにおいて、名前付きエンティティ認識モデルはラベル付きエンティティ問題に苦しむ。
ラベルのないエンティティによってもたらされる誤解をほとんど排除できる一般的なアプローチを提案する。
私たちのモデルは、ラベルのないエンティティ問題に堅牢であり、以前のベースラインを超えます。
論文 参考訳(メタデータ) (2020-12-10T02:53:59Z) - Improving Face Recognition by Clustering Unlabeled Faces in the Wild [77.48677160252198]
極値理論に基づく新しいアイデンティティ分離法を提案する。
重なり合うラベルノイズによる問題を大幅に低減する。
制御された設定と実際の設定の両方の実験は、我々のメソッドの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2020-07-14T12:26:50Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。