論文の概要: NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval
- arxiv url: http://arxiv.org/abs/2310.14282v1
- Date: Sun, 22 Oct 2023 12:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:42:44.418726
- Title: NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval
- Title(参考訳): NERetrieve: 次世代エンティティ認識と検索のためのデータセット
- Authors: Uri Katz, Matan Vetzler, Amir DN Cohen, Yoav Goldberg
- Abstract要約: 我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
- 参考スコア(独自算出の注目度): 49.827932299460514
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recognizing entities in texts is a central need in many information-seeking
scenarios, and indeed, Named Entity Recognition (NER) is arguably one of the
most successful examples of a widely adopted NLP task and corresponding NLP
technology. Recent advances in large language models (LLMs) appear to provide
effective solutions (also) for NER tasks that were traditionally handled with
dedicated models, often matching or surpassing the abilities of the dedicated
models. Should NER be considered a solved problem? We argue to the contrary:
the capabilities provided by LLMs are not the end of NER research, but rather
an exciting beginning. They allow taking NER to the next level, tackling
increasingly more useful, and increasingly more challenging, variants. We
present three variants of the NER task, together with a dataset to support
them. The first is a move towards more fine-grained -- and intersectional --
entity types. The second is a move towards zero-shot recognition and extraction
of these fine-grained types based on entity-type labels. The third, and most
challenging, is the move from the recognition setup to a novel retrieval setup,
where the query is a zero-shot entity type, and the expected result is all the
sentences from a large, pre-indexed corpus that contain entities of these
types, and their corresponding spans. We show that all of these are far from
being solved. We provide a large, silver-annotated corpus of 4 million
paragraphs covering 500 entity types, to facilitate research towards all of
these three goals.
- Abstract(参考訳): テキスト中のエンティティを認識することは、多くの情報検索シナリオにおいて中心的なニーズであり、実際に名前付きエンティティ認識(NER)は、広く採用されているNLPタスクとそれに対応するNLP技術の最も成功した例の1つである。
大規模言語モデル(LLMs)の最近の進歩は、伝統的に専用モデルで扱われたNERタスクに対して、しばしば専用のモデルの能力にマッチまたは超える効果的なソリューション(これも)を提供するように見える。
NERは解決すべき問題か?
LLMが提供する能力は、NER研究の終わりではなく、むしろエキサイティングな始まりである。
NERを次のレベルに引き上げることを可能にし、より有用で、より困難な亜種に取り組むことができる。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
ひとつは、よりきめ細かい -- および交叉型 - エンティティ型への動きです。
2つめは、エンティティタイプのラベルに基づいて、これらのきめ細かい型をゼロショット認識して抽出する動きです。
第3の、そして最も難しいのは、クエリがゼロショットエンティティ型であり、期待される結果が、これらのタイプのエンティティと対応するスパンを含む、大きな事前インデックスされたコーパスからのすべての文である、認識設定から新しい検索設定への移行である。
これらのすべてが解決されるには程遠いことを示しています。
我々は,これら3つの目標すべてを対象とした研究を容易にするために,500のエンティティタイプをカバーする400万段落の大規模銀アノテートコーパスを提供する。
関連論文リスト
- In-Context Learning for Few-Shot Nested Named Entity Recognition [53.55310639969833]
数発のネストネストNERの設定に有効で革新的なICLフレームワークを導入する。
我々は、新しい実演選択機構であるEnDe retrieverを考案し、ICLプロンプトを改善する。
EnDe検索では,意味的類似性,境界類似性,ラベル類似性という3種類の表現学習を行うために,コントラスト学習を用いる。
論文 参考訳(メタデータ) (2024-02-02T06:57:53Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - PromptNER: Prompting For Named Entity Recognition [27.501500279749475]
本稿では,少数ショットとクロスドメインNERのための最先端アルゴリズムであるPromptNERを紹介する。
PromptNERは、ConLLデータセットのF1スコアの4%(絶対)改善、GENIAデータセットの9%(絶対)改善、FewNERDデータセットの4%(絶対)改善を実現している。
論文 参考訳(メタデータ) (2023-05-24T07:38:24Z) - PromptNER: A Prompting Method for Few-shot Named Entity Recognition via
k Nearest Neighbor Search [56.81939214465558]
本稿では,近距離探索による数発NERの新規プロンプト法であるPromptNERを提案する。
我々は、エンティティカテゴリ情報を含むプロンプトを使用してラベルのプロトタイプを構築する。
Few-NERDデータセットとCrossNERデータセットの広範な実験により,本モデルが最先端手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-05-20T15:47:59Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Dynamic Named Entity Recognition [5.9401550252715865]
動的名前付きエンティティ認識(DNER)という新しいタスクを紹介します。
DNERは、コンテキストを利用してエンティティを抽出するアルゴリズムの能力を評価するためのフレームワークを提供する。
本稿では,本課題に関連する課題と研究軸を反映したベースラインモデルと実験結果について述べる。
論文 参考訳(メタデータ) (2023-02-16T15:50:02Z) - Unified Named Entity Recognition as Word-Word Relation Classification [25.801945832005504]
我々は、統一NERを単語関係分類、すなわちW2NERとしてモデル化する新しい方法を提案する。
このアーキテクチャは、エンティティワード間の隣り合う関係を効果的にモデル化することにより、統一NERのカーネルボトルネックを解決する。
W2NERスキームに基づいて,統一NERを単語ペアの2次元グリッドとしてモデル化するニューラルネットワークフレームワークを開発する。
論文 参考訳(メタデータ) (2021-12-19T06:11:07Z) - A Sequence-to-Set Network for Nested Named Entity Recognition [38.05786148160635]
ネストNERのための新しいシーケンス・ツー・セットニューラルネットワークを提案する。
我々は、非自己回帰デコーダを使用して、1回のパスで最終的なエンティティセットを予測する。
実験により, ネストした3つのNERコーパスに対して, 提案モデルが最先端となることを示す。
論文 参考訳(メタデータ) (2021-05-19T03:10:04Z) - Few-NERD: A Few-Shot Named Entity Recognition Dataset [35.669024917327825]
提案するFew-NERDは,8大きめの粒度と66大きめの粒度を持つ大規模人手用少数ショットNERデータセットである。
Few-NERDはウィキペディアの188,238文で構成され、4,601,160語が含まれ、それぞれが文脈または2段階のエンティティタイプの一部として注釈付けされている。
論文 参考訳(メタデータ) (2021-05-16T15:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。