論文の概要: Few-NERD: A Few-Shot Named Entity Recognition Dataset
- arxiv url: http://arxiv.org/abs/2105.07464v2
- Date: Wed, 19 May 2021 08:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 11:28:47.957835
- Title: Few-NERD: A Few-Shot Named Entity Recognition Dataset
- Title(参考訳): Few-NERD: エンティティ認識データセット
- Authors: Ning Ding, Guangwei Xu, Yulin Chen, Xiaobin Wang, Xu Han, Pengjun Xie,
Hai-Tao Zheng, Zhiyuan Liu
- Abstract要約: 提案するFew-NERDは,8大きめの粒度と66大きめの粒度を持つ大規模人手用少数ショットNERデータセットである。
Few-NERDはウィキペディアの188,238文で構成され、4,601,160語が含まれ、それぞれが文脈または2段階のエンティティタイプの一部として注釈付けされている。
- 参考スコア(独自算出の注目度): 35.669024917327825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, considerable literature has grown up around the theme of few-shot
named entity recognition (NER), but little published benchmark data
specifically focused on the practical and challenging task. Current approaches
collect existing supervised NER datasets and re-organize them to the few-shot
setting for empirical study. These strategies conventionally aim to recognize
coarse-grained entity types with few examples, while in practice, most unseen
entity types are fine-grained. In this paper, we present Few-NERD, a
large-scale human-annotated few-shot NER dataset with a hierarchy of 8
coarse-grained and 66 fine-grained entity types. Few-NERD consists of 188,238
sentences from Wikipedia, 4,601,160 words are included and each is annotated as
context or a part of a two-level entity type. To the best of our knowledge,
this is the first few-shot NER dataset and the largest human-crafted NER
dataset. We construct benchmark tasks with different emphases to
comprehensively assess the generalization capability of models. Extensive
empirical results and analysis show that Few-NERD is challenging and the
problem requires further research. We make Few-NERD public at
https://ningding97.github.io/fewnerd/.
- Abstract(参考訳): 近年,エンティティ認識(ner)のテーマを中心に多くの文献が登場しているが,実用的かつ難解な課題に注目したベンチマークデータはほとんど公開されていない。
現在のアプローチでは、既存の教師付きNERデータセットを収集し、経験的研究のために数ショット設定に再編成している。
これらの戦略は、通常、大まかなエンティティタイプを少数の例で認識することを目的としている。
本稿では,大まかな粒度と細粒度66の階層構造を持つ大規模人手用少数ショットNERデータセットであるFew-NERDを提案する。
Few-NERDはウィキペディアの188,238文で構成され、4,601,160語が含まれ、それぞれが文脈または2段階のエンティティタイプの一部として注釈付けされている。
私たちの知る限りでは、これが最初の数発のNERデータセットであり、人造NERデータセットとしては最大です。
我々は,モデルの一般化能力を包括的に評価するために,異なる段階のベンチマークタスクを構築した。
大規模な実験結果と分析により、Few-NERDは困難であり、さらなる研究が必要であることが示された。
Few-NERDはhttps://ningding97.github.io/fewnerd/で公開しています。
関連論文リスト
- Robust Few-Shot Named Entity Recognition with Boundary Discrimination
and Correlation Purification [14.998158107063848]
NER (Few-shot named entity recognition) は、既存の知識を活用して、低リソース領域における新しい名前付きエンティティを認識することを目的としている。
境界識別・相関浄化法(BDCP)を用いた頑健な2段連写NER法を提案する。
スパン検出段階では、エンティティ境界判別モジュールを導入して、エンティティスパンを検出するための高度に区別された境界表現空間を提供する。
エンティティタイピング段階では、干渉情報を最小化してエンティティとコンテキストの相関を浄化する。
論文 参考訳(メタデータ) (2023-12-13T08:17:00Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - Dynamic Named Entity Recognition [5.9401550252715865]
動的名前付きエンティティ認識(DNER)という新しいタスクを紹介します。
DNERは、コンテキストを利用してエンティティを抽出するアルゴリズムの能力を評価するためのフレームワークを提供する。
本稿では,本課題に関連する課題と研究軸を反映したベースラインモデルと実験結果について述べる。
論文 参考訳(メタデータ) (2023-02-16T15:50:02Z) - What do we Really Know about State of the Art NER? [0.0]
我々は、一般的なデータセットを用いて、NERを広範囲に評価する。
我々は、元のテストセットの小さな摂動を通して、新しい6つの対角テストセットを生成する。
ランダムに生成されたトレイン/デブ/テストスプリットでモデルをトレーニングおよびテストし、その後、モデルを特定のジャンルでトレーニングするが、トレーニングでは見られないジャンルをテストする実験を行った。
論文 参考訳(メタデータ) (2022-04-29T18:35:53Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - MINER: Improving Out-of-Vocabulary Named Entity Recognition from an
Information Theoretic Perspective [57.19660234992812]
NERモデルは標準のNERベンチマークで有望な性能を達成した。
近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabulary)エンティティ認識の性能が劣っていることが示されている。
我々は、情報理論の観点からこの問題を改善するための新しいNER学習フレームワークであるMINERを提案する。
論文 参考訳(メタデータ) (2022-04-09T05:18:20Z) - NER-BERT: A Pre-trained Model for Low-Resource Entity Tagging [40.57720568571513]
比較的高品質な大規模NERコーパスを構築し,生成したデータセットに基づいてNER-BERTモデルを事前学習する。
実験結果から,当社の事前学習モデルは,低リソースシナリオにおけるBERTと他の強力なベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-01T10:45:02Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。