論文の概要: Cascaded Models for Better Fine-Grained Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2009.07317v1
- Date: Tue, 15 Sep 2020 18:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 06:17:26.556134
- Title: Cascaded Models for Better Fine-Grained Named Entity Recognition
- Title(参考訳): ファイングラインド名前認識のためのカスケードモデル
- Authors: Parul Awasthy and Taesun Moon and Jian Ni and Radu Florian
- Abstract要約: 細粒度NERをラベル付けするためのケースドアプローチを新たにリリースした細粒度NERデータセットに適用する。
完全きめ細かな型で構築された直感的なモデルと比較して,20F1絶対値で性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 10.03287972980716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) is an essential precursor task for many
natural language applications, such as relation extraction or event extraction.
Much of the NER research has been done on datasets with few classes of entity
types (e.g. PER, LOC, ORG, MISC), but many real world applications (disaster
relief, complex event extraction, law enforcement) can benefit from a larger
NER typeset. More recently, datasets were created that have hundreds to
thousands of types of entities, sparking new lines of research (Sekine,
2008;Ling and Weld, 2012; Gillick et al., 2014; Choiet al., 2018). In this
paper we present a cascaded approach to labeling fine-grained NER, applying to
a newly released fine-grained NER dataset that was used in the TAC KBP 2019
evaluation (Ji et al., 2019), inspired by the fact that training data is
available for some of the coarse labels. Using a combination of transformer
networks, we show that performance can be improved by about 20 F1 absolute, as
compared with the straightforward model built on the full fine-grained types,
and show that, surprisingly, using course-labeled data in three languages leads
to an improvement in the English data.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、関係抽出やイベント抽出など、多くの自然言語アプリケーションにとって必須のタスクである。
NERの研究の多くは、いくつかのエンティティタイプ(PER、LOC、ORG、MISCなど)を持つデータセットで行われているが、多くの現実世界のアプリケーション(災害救助、複雑なイベント抽出、法執行)はより大きなNERタイプセットの恩恵を受けることができる。
最近では、数百から数千種類のエンティティを持つデータセットが作成され、新しい研究のラインが引き起こされた(Sekine, 2008;Ling and Weld, 2012; Gillick et al., 2014; Choiet al., 2018)。
本稿では,TAC KBP 2019評価(Ji et al., 2019)で新たにリリースされた粒度NERデータセットに適用した,粒度NERのラベル付けに対するカスケード手法を提案する。
トランスフォーマーネットワークの組み合わせを用いて,完全細粒度型に構築された単純なモデルと比較して,約20f1の絶対値で性能が向上できることを示し,驚くことに,3つの言語でコースラベルデータを使用することで,英語データの改善につながることを示した。
関連論文リスト
- Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition [40.23783832224238]
我々は,Open NERの凝集性および効率的なデータセットであるB2NERDを提案する。
データセット間の一貫性のないエンティティ定義を検出し,識別可能なラベル名を用いて識別し,400以上のエンティティタイプを普遍的に分類する。
我々のB2NERモデルは、B2NERDでトレーニングされ、GPT-4を6.8-12.0 F1ポイント上回っており、15のデータセットと6つの言語にわたる3つのドメイン外のベンチマークで、以前のメソッドを上回っています。
論文 参考訳(メタデータ) (2024-06-17T03:57:35Z) - MultiADE: A Multi-domain Benchmark for Adverse Drug Event Extraction [11.458594744457521]
アクティブな有害事象監視は、異なるデータソースからの逆薬物イベント(ADE)を監視する。
ほとんどのデータセットや共有タスクは、特定のタイプのテキストからADEを抽出することに焦点を当てている。
ドメインの一般化 - 新しい、目に見えないドメイン(テキストタイプ)でうまく機能する機械学習モデルの能力は、まだ解明されていない。
我々はMultiADEと名づけた有害薬物イベント抽出のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-05-28T09:57:28Z) - In-Context Learning for Few-Shot Nested Named Entity Recognition [53.55310639969833]
数発のネストネストNERの設定に有効で革新的なICLフレームワークを導入する。
我々は、新しい実演選択機構であるEnDe retrieverを考案し、ICLプロンプトを改善する。
EnDe検索では,意味的類似性,境界類似性,ラベル類似性という3種類の表現学習を行うために,コントラスト学習を用いる。
論文 参考訳(メタデータ) (2024-02-02T06:57:53Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Dynamic Conceptional Contrastive Learning for Generalized Category
Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。
ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。
GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。
本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:04:39Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial
Discriminator for Cross-Lingual NER [2.739898536581301]
エンコーダがラベル付きソースコードからエンティティドメインの知識を学習する逆学習フレームワークを設計する。
提案手法は, このデータ選択プロセスの恩恵を強く受け, 既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-04T07:17:18Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。