論文の概要: What do we Really Know about State of the Art NER?
- arxiv url: http://arxiv.org/abs/2205.00034v1
- Date: Fri, 29 Apr 2022 18:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 11:30:43.264243
- Title: What do we Really Know about State of the Art NER?
- Title(参考訳): 最先端NERについて何を知っているのか?
- Authors: Sowmya Vajjala and Ramya Balasubramaniam
- Abstract要約: 我々は、一般的なデータセットを用いて、NERを広範囲に評価する。
我々は、元のテストセットの小さな摂動を通して、新しい6つの対角テストセットを生成する。
ランダムに生成されたトレイン/デブ/テストスプリットでモデルをトレーニングおよびテストし、その後、モデルを特定のジャンルでトレーニングするが、トレーニングでは見られないジャンルをテストする実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) is a well researched NLP task and is widely
used in real world NLP scenarios. NER research typically focuses on the
creation of new ways of training NER, with relatively less emphasis on
resources and evaluation. Further, state of the art (SOTA) NER models, trained
on standard datasets, typically report only a single performance measure
(F-score) and we don't really know how well they do for different entity types
and genres of text, or how robust are they to new, unseen entities. In this
paper, we perform a broad evaluation of NER using a popular dataset, that takes
into consideration various text genres and sources constituting the dataset at
hand. Additionally, we generate six new adversarial test sets through small
perturbations in the original test set, replacing select entities while
retaining the context. We also train and test our models on randomly generated
train/dev/test splits followed by an experiment where the models are trained on
a select set of genres but tested genres not seen in training. These
comprehensive evaluation strategies were performed using three SOTA NER models.
Based on our results, we recommend some useful reporting practices for NER
researchers, that could help in providing a better understanding of a SOTA
model's performance in future.
- Abstract(参考訳): 名前付きエンティティ認識(NER)はよく研究されているNLPタスクであり、現実世界のNLPシナリオで広く利用されている。
NER の研究は典型的には NER の新たな訓練方法の作成に重点を置いており、資源や評価にはあまり重点を置いていない。
さらに、標準的なデータセットに基づいてトレーニングされたState of the Art (SOTA) NERモデルは、通常、単一のパフォーマンス指標(Fスコア)のみを報告します。
本稿では,そのデータセットを構成するテキストのジャンルやソースを考慮に入れた,一般的なデータセットを用いたNERの広範な評価を行う。
さらに、元のテストセットの小さな摂動によって新しい6つの対角テストセットを生成し、コンテキストを維持しながら選択エンティティを置き換える。
また、ランダムに生成されたトレイン/デベロップメント/テスト分割でモデルをトレーニングし、その後、トレーニング中に見られないジャンルでモデルをトレーニングする実験を行いました。
これらの総合評価は3つのSOTA NERモデルを用いて行った。
この結果に基づいて,将来SOTAモデルの性能をよりよく理解する上で,NER研究者に有用な報告手法を提案する。
関連論文リスト
- Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - UniversalNER: Targeted Distillation from Large Language Models for Open
Named Entity Recognition [48.977866466971655]
オープンNERのためにChatGPTをはるかに小さなUniversalNERモデルに蒸留する方法を示す。
9つの異なるドメインにわたる43のデータセットからなる、これまでで最大のNERベンチマークを組み立てました。
パラメータのごく一部で、UniversalNERは任意のエンティティタイプを認識するChatGPTの能力を取得するだけでなく、NERの精度を平均7-9絶対F1ポイントで上回る。
論文 参考訳(メタデータ) (2023-08-07T03:39:52Z) - Simple Questions Generate Named Entity Recognition Datasets [18.743889213075274]
この研究は、単純な自然言語の質問によってNERデータセットを自動的に生成する、要求対生成のアプローチを導入している。
我々のモデルは、4つの異なる領域にわたる6つのNERベンチマークにおいて、以前の弱い教師付きモデルよりも大幅に優れています。
自然言語でNERのニーズを定式化することで、アワードのようなきめ細かいエンティティタイプのためのNERモデルを構築することもできます。
論文 参考訳(メタデータ) (2021-12-16T11:44:38Z) - NER-BERT: A Pre-trained Model for Low-Resource Entity Tagging [40.57720568571513]
比較的高品質な大規模NERコーパスを構築し,生成したデータセットに基づいてNER-BERTモデルを事前学習する。
実験結果から,当社の事前学習モデルは,低リソースシナリオにおけるBERTと他の強力なベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-01T10:45:02Z) - RockNER: A Simple Method to Create Adversarial Examples for Evaluating
the Robustness of Named Entity Recognition Models [32.806292167848156]
名前付きエンティティ認識モデルのロバスト性を評価するためにRockNERを提案する。
ターゲットエンティティを、Wikidataの同じセマンティッククラスの他のエンティティに置き換える。
文脈レベルでは、事前訓練された言語モデルを用いて単語置換を生成する。
論文 参考訳(メタデータ) (2021-09-12T21:30:21Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Few-NERD: A Few-Shot Named Entity Recognition Dataset [35.669024917327825]
提案するFew-NERDは,8大きめの粒度と66大きめの粒度を持つ大規模人手用少数ショットNERデータセットである。
Few-NERDはウィキペディアの188,238文で構成され、4,601,160語が含まれ、それぞれが文脈または2段階のエンティティタイプの一部として注釈付けされている。
論文 参考訳(メタデータ) (2021-05-16T15:53:17Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - One Model to Recognize Them All: Marginal Distillation from NER Models
with Different Tag Sets [30.445201832698192]
名前付きエンティティ認識(NER)は、現代の言語理解パイプラインの基本コンポーネントである。
本稿では,不均一なタグセットを持つ資源から統一NERモデルを訓練するための限界蒸留(MARDI)手法を提案する。
論文 参考訳(メタデータ) (2020-04-10T17:36:27Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。