論文の概要: Empirical Analysis of Unlabeled Entity Problem in Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2012.05426v5
- Date: Thu, 18 Mar 2021 06:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:28:16.457398
- Title: Empirical Analysis of Unlabeled Entity Problem in Named Entity
Recognition
- Title(参考訳): 名前付きエンティティ認識におけるラベル付きエンティティ問題の実証分析
- Authors: Yangming Li, Lemao Liu, Shuming Shi
- Abstract要約: 多くのシナリオにおいて、名前付きエンティティ認識モデルはラベル付きエンティティ問題に苦しむ。
ラベルのないエンティティによってもたらされる誤解をほとんど排除できる一般的なアプローチを提案する。
私たちのモデルは、ラベルのないエンティティ問題に堅牢であり、以前のベースラインを超えます。
- 参考スコア(独自算出の注目度): 47.273602658066196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many scenarios, named entity recognition (NER) models severely suffer from
unlabeled entity problem, where the entities of a sentence may not be fully
annotated. Through empirical studies performed on synthetic datasets, we find
two causes of performance degradation. One is the reduction of annotated
entities and the other is treating unlabeled entities as negative instances.
The first cause has less impact than the second one and can be mitigated by
adopting pretraining language models. The second cause seriously misguides a
model in training and greatly affects its performances. Based on the above
observations, we propose a general approach, which can almost eliminate the
misguidance brought by unlabeled entities. The key idea is to use negative
sampling that, to a large extent, avoids training NER models with unlabeled
entities. Experiments on synthetic datasets and real-world datasets show that
our model is robust to unlabeled entity problem and surpasses prior baselines.
On well-annotated datasets, our model is competitive with the state-of-the-art
method.
- Abstract(参考訳): 多くのシナリオにおいて、名前付きエンティティ認識(NER)モデルは、文のエンティティを完全に注釈付けできないようなラベル付けされていないエンティティ問題に苦しむ。
合成データセットを用いた実証実験により,性能劣化の原因が2つ見つかった。
1つは注釈付きエンティティの削減、もう1つはラベル付きエンティティを負のインスタンスとして扱うことである。
第1の要因は第2の要因よりも影響が少なく、事前トレーニング言語モデルを採用することで軽減できる。
2つ目の原因は、トレーニングのモデルをひどく誤解し、そのパフォーマンスに大きな影響を与えます。
上記の観察に基づいて,ラベルのない実体によってもたらされる誤動作をほぼ排除できる一般的なアプローチを提案する。
キーとなるアイデアは、負のサンプリングを使用することで、ラベルのないエンティティでNERモデルをトレーニングすることを避けます。
合成データセットと実世界のデータセットに関する実験は、我々のモデルはラベルなしのエンティティ問題に頑健であり、以前のベースラインを超えることを示している。
注釈付きデータセットでは、我々のモデルは最先端の手法と競合する。
関連論文リスト
- Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Continual Named Entity Recognition without Catastrophic Forgetting [37.316700599440935]
我々は,古いエンティティタイプの知識の保持と新しいもの獲得のトレードオフを巧みに回避する,プールド・フィーチャー蒸留損失を導入する。
非エンタリティ型のための信頼に基づく疑似ラベルを作成する。
バイアス型分布の問題に対処するために,適応的再重み付け型バランス学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T03:45:30Z) - Enhancing Low-resource Fine-grained Named Entity Recognition by
Leveraging Coarse-grained Datasets [1.5500145658862499]
K$-shotの学習テクニックを適用することもできるが、アノテーションの数が数十を超えると、そのパフォーマンスは飽和する傾向にある。
階層構造を的確に活用するために,F2Cマッピング行列を用いた細粒度NERモデルを提案する。
本手法は,少量の微粒なアノテーションを扱う場合,$K$-shot学習と教師あり学習の両方に優れる。
論文 参考訳(メタデータ) (2023-10-18T05:13:34Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Recognizing Nested Entities from Flat Supervision: A New NER Subtask,
Feasibility and Challenges [3.614392310669357]
本研究では,現実的な応用シナリオに対応する新しいサブタスクであるネスト・オブ・フラットNERを提案する。
ラベル付きエンティティ内でネストされたスパンを意図的に無視し、スパンベースのモデルをトレーニングします。
トレーニングデータからネストされたエンティティを除去すると,ACE 2004,ACE 2005,GENIAの各エンティティ内のスパンのサブセットに対して54.8%,54.2%,41.1%のF1スコアが得られた。
論文 参考訳(メタデータ) (2022-11-01T06:41:42Z) - A Noise-Robust Loss for Unlabeled Entity Problem in Named Entity
Recognition [9.321777368120658]
我々は、未ラベルデータに対処するNRCESと呼ばれる新しい損失関数を提案する。
合成および実世界のデータセットの実験により、厳密なラベル付き実体問題の場合、我々のアプローチは強い堅牢性を示すことが示された。
論文 参考訳(メタデータ) (2022-08-05T00:02:13Z) - Adversarial Dual-Student with Differentiable Spatial Warping for
Semi-Supervised Semantic Segmentation [70.2166826794421]
本研究では、教師なしデータ拡張を行うために、微分可能な幾何ワープを提案する。
また,平均教師数を改善するために,新しい対角的二重学習フレームワークを提案する。
我々のソリューションは、両方のデータセットで得られるパフォーマンスと最先端の結果を大幅に改善します。
論文 参考訳(メタデータ) (2022-03-05T17:36:17Z) - Rethinking Negative Sampling for Unlabeled Entity Problem in Named
Entity Recognition [47.273602658066196]
ラベルのないエンティティは、名前付きエンティティ認識モデルのパフォーマンスを著しく劣化させる。
我々は、なぜ負のサンプリングが理論的にも経験的にも成功するのかを分析する。
負サンプリングのための重み付き適応サンプリング分布を提案する。
論文 参考訳(メタデータ) (2021-08-26T07:02:57Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。