論文の概要: Simple Questions Generate Named Entity Recognition Datasets
- arxiv url: http://arxiv.org/abs/2112.08808v1
- Date: Thu, 16 Dec 2021 11:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:56:28.067267
- Title: Simple Questions Generate Named Entity Recognition Datasets
- Title(参考訳): 名前付きエンティティ認識データセットを生成する単純な質問
- Authors: Hyunjae Kim, Jaehyo Yoo, Seunghyun Yoon, Jinhyuk Lee, Jaewoo Kang
- Abstract要約: この研究は、単純な自然言語の質問によってNERデータセットを自動的に生成する、要求対生成のアプローチを導入している。
我々のモデルは、4つの異なる領域にわたる6つのNERベンチマークにおいて、以前の弱い教師付きモデルよりも大幅に優れています。
自然言語でNERのニーズを定式化することで、アワードのようなきめ細かいエンティティタイプのためのNERモデルを構築することもできます。
- 参考スコア(独自算出の注目度): 18.743889213075274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named entity recognition (NER) is a task of extracting named entities of
specific types from text. Current NER models often rely on human-annotated
datasets requiring the vast engagement of professional knowledge on the target
domain and entities. This work introduces an ask-to-generate approach, which
automatically generates NER datasets by asking simple natural language
questions that reflect the needs for entity types (e.g., Which disease?) to an
open-domain question answering system. Without using any in-domain resources
(i.e., training sentences, labels, or in-domain dictionaries), our models
solely trained on our generated datasets largely outperform previous weakly
supervised models on six NER benchmarks across four different domains.
Surprisingly, on NCBI-disease, our model achieves 75.5 F1 score and even
outperforms the previous best weakly supervised model by 4.1 F1 score, which
utilizes a rich in-domain dictionary provided by domain experts. Formulating
the needs of NER with natural language also allows us to build NER models for
fine-grained entity types such as Award, where our model even outperforms fully
supervised models. On three few-shot NER benchmarks, our model achieves new
state-of-the-art performance.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、テキストから特定のタイプの名前付きエンティティを抽出するタスクである。
現在のNERモデルは、ターゲットドメインやエンティティに関する専門的知識の膨大な関与を必要とする、人間アノテーション付きデータセットに依存していることが多い。
この手法は、エンティティタイプ(例えば、どの病気?)のニーズを反映した単純な自然言語の質問を、オープンドメインの質問応答システムに自動的にNERデータセットを生成する。
ドメイン内のリソース(例えば、トレーニング文、ラベル、ドメイン内辞書)を使わずに、生成したデータセットでのみトレーニングしたモデルは、4つの異なるドメインにわたる6つのNERベンチマークの弱い教師付きモデルよりも大幅に優れています。
驚いたことに、NCBI-diseaseでは、我々のモデルは75.5 F1のスコアを達成し、ドメインの専門家によって提供される豊富なドメイン内辞書を利用する4.1 F1のスコアで、これまでで最も弱い教師付きモデルよりも優れています。
自然言語でNERのニーズを定式化することで、アワードのような粒度の細かいエンティティタイプのためのNERモデルを構築することができます。
3つの数ショットのNERベンチマークで、我々のモデルは新しい最先端のパフォーマンスを達成する。
関連論文リスト
- Improving Few-Shot Cross-Domain Named Entity Recognition by Instruction Tuning a Word-Embedding based Retrieval Augmented Large Language Model [0.0]
Few-Shot Cross-Domain NERは、データ豊富なソースドメインからの知識を活用して、データ不足のターゲットドメイン上でエンティティ認識を実行するプロセスである。
名前付きエンティティ認識のための検索拡張大言語モデルIF-WRANERを提案する。
論文 参考訳(メタデータ) (2024-11-01T08:57:29Z) - ToNER: Type-oriented Named Entity Recognition with Generative Language Model [14.11486479935094]
生成モデルに基づく新しいNERフレームワーク、すなわちToNERを提案する。
ToNERでは、文中に最も現れる可能性が最も高いエンティティタイプを特定するために、最初は型マッチングモデルが提案されている。
我々は、生成モデルのエンコーダを微調整するために、複数のバイナリ分類タスクを追加し、入力文の洗練された表現を生成する。
論文 参考訳(メタデータ) (2024-04-14T05:13:37Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - PromptNER: A Prompting Method for Few-shot Named Entity Recognition via
k Nearest Neighbor Search [56.81939214465558]
本稿では,近距離探索による数発NERの新規プロンプト法であるPromptNERを提案する。
我々は、エンティティカテゴリ情報を含むプロンプトを使用してラベルのプロトタイプを構築する。
Few-NERDデータセットとCrossNERデータセットの広範な実験により,本モデルが最先端手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-05-20T15:47:59Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Domain-Transferable Method for Named Entity Recognition Task [0.6040938686276304]
本稿では、任意の名前付きエンティティの集合に対して、ドメイン固有のNERモデルを学習する方法について述べる。
我々は、人間の努力なしに監督が得られ、ニューラルモデルが互いに学習できると仮定する。
論文 参考訳(メタデータ) (2020-11-24T15:45:52Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z) - One Model to Recognize Them All: Marginal Distillation from NER Models
with Different Tag Sets [30.445201832698192]
名前付きエンティティ認識(NER)は、現代の言語理解パイプラインの基本コンポーネントである。
本稿では,不均一なタグセットを持つ資源から統一NERモデルを訓練するための限界蒸留(MARDI)手法を提案する。
論文 参考訳(メタデータ) (2020-04-10T17:36:27Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。