論文の概要: Taxonomy Expansion for Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2305.13191v1
- Date: Mon, 22 May 2023 16:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:26:30.444504
- Title: Taxonomy Expansion for Named Entity Recognition
- Title(参考訳): 名前付きエンティティ認識のための分類展開
- Authors: Karthikeyan K, Yogarshi Vyas, Jie Ma, Giovanni Paolini, Neha Anna
John, Shuai Wang, Yassine Benajiba, Vittorio Castelli, Dan Roth, Miguel
Ballesteros
- Abstract要約: 名前付きエンティティ認識(NER)モデルをトレーニングするには、しばしばエンティティタイプの分類を修正する必要がある。
単純なアプローチは、既存のエンティティタイプと追加エンティティタイプの両方でデータセット全体をアノテートすることだ。
部分的ラベルモデル(PLM)と呼ばれる,注釈付きデータセットのみを用いる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 65.49344005894996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a Named Entity Recognition (NER) model often involves fixing a
taxonomy of entity types. However, requirements evolve and we might need the
NER model to recognize additional entity types. A simple approach is to
re-annotate entire dataset with both existing and additional entity types and
then train the model on the re-annotated dataset. However, this is an extremely
laborious task. To remedy this, we propose a novel approach called Partial
Label Model (PLM) that uses only partially annotated datasets. We experiment
with 6 diverse datasets and show that PLM consistently performs better than
most other approaches (0.5 - 2.5 F1), including in novel settings for taxonomy
expansion not considered in prior work. The gap between PLM and all other
approaches is especially large in settings where there is limited data
available for the additional entity types (as much as 11 F1), thus suggesting a
more cost effective approaches to taxonomy expansion.
- Abstract(参考訳): 名前付きエンティティ認識(NER)モデルをトレーニングするには、しばしばエンティティタイプの分類を修正する必要がある。
しかし、要求は進化し、追加のエンティティタイプを認識するためにNERモデルが必要になるかもしれません。
単純なアプローチとして、既存のエンティティタイプと追加のエンティティタイプの両方でデータセット全体を再アノテーションし、再アノテーションされたデータセットでモデルをトレーニングする。
しかし、これは非常に厳しい作業である。
そこで本研究では,部分注釈付きデータセットのみを使用する部分ラベルモデル(plm)と呼ばれる新しい手法を提案する。
我々は6つの多様なデータセットを実験し、plmが他のほとんどのアプローチ(0.5 - 2.5 f1)よりも一貫して優れた性能を示す。
PLMと他のすべてのアプローチとのギャップは、追加のエンティティタイプ(最大11F1まで)に制限のある設定で特に大きいため、分類学の拡張に対するよりコスト効率の良いアプローチが示唆される。
関連論文リスト
- Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition [40.23783832224238]
我々は,Open NERの凝集性および効率的なデータセットであるB2NERDを提案する。
データセット間の一貫性のないエンティティ定義を検出し,識別可能なラベル名を用いて識別し,400以上のエンティティタイプを普遍的に分類する。
我々のB2NERモデルは、B2NERDでトレーニングされ、GPT-4を6.8-12.0 F1ポイント上回っており、15のデータセットと6つの言語にわたる3つのドメイン外のベンチマークで、以前のメソッドを上回っています。
論文 参考訳(メタデータ) (2024-06-17T03:57:35Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation [48.75470418596875]
大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを高めることができるが、VISのデータセットは労働コストが高いためスケールアップが難しい。
私たちが持っているものは、多数の独立した提出された特定のデータセットであり、データ量と多様性を高めるためにデータセットの集合をまたいだモデルを共同でトレーニングすることが魅力です。
我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気で挑戦的なベンチマークで、広範囲に評価を行っている。
本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。
論文 参考訳(メタデータ) (2023-12-11T18:50:09Z) - From Ultra-Fine to Fine: Fine-tuning Ultra-Fine Entity Typing Models to
Fine-grained [12.948753628039093]
この問題に対処する一般的な方法は、間違ったラベルを含む遠方の注釈付きトレーニングデータを使用することである。
我々は,新しい型スキーマが存在する場合,遠隔ラベル付きデータを作成する必要がなくなるような新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-11T08:12:01Z) - MAVEN-ERE: A Unified Large-scale Dataset for Event Coreference,
Temporal, Causal, and Subevent Relation Extraction [78.61546292830081]
アノテーションを改良した大規模EREデータセットMAVEN-EREを構築した。
103,193個のイベント・コア・チェイン、1,216,217個の時間関係、57,992個の因果関係、15,841個の部分関係を含む。
実験の結果,MAVEN-ERE上でのEREは極めて困難であり,共同学習との相互関係を考慮すれば性能が向上することが示された。
論文 参考訳(メタデータ) (2022-11-14T13:34:49Z) - Automatic universal taxonomies for multi-domain semantic segmentation [1.4364491422470593]
複数のデータセットに対するセマンティックセグメンテーションモデルのトレーニングは、コンピュータビジョンコミュニティに最近多くの関心を呼んだ。
確立されたデータセットには 互いに互換性のないラベルがあります 野生の原理的推論を妨害します
我々は、反復的データセット統合による普遍的な構築によってこの問題に対処する。
論文 参考訳(メタデータ) (2022-07-18T08:53:17Z) - ReFinED: An Efficient Zero-shot-capable Approach to End-to-End Entity
Linking [5.382800665115746]
ReFinEDは効率的なエンドツーエンドのエンティティリンクモデルである。
単一のフォワードパスで、ドキュメント内のすべての参照に対して、参照検出、きめ細かいエンティティタイピング、エンティティの曖昧さを実行する。
標準エンティティリンクデータセットの最先端パフォーマンスを平均3.7 F1で上回る。
論文 参考訳(メタデータ) (2022-07-08T19:20:42Z) - Exploring and Evaluating Attributes, Values, and Structures for Entity
Alignment [100.19568734815732]
エンティティアライメント(EA)は、さまざまなKGから等価なエンティティをリンクすることで、リッチコンテンツの統合知識グラフ(KG)を構築することを目的としている。
属性・トリプルは重要なアライメント信号も提供できますが、まだ十分に調査されていません。
本稿では,属性値エンコーダを用いてKGをサブグラフに分割し,属性の様々なタイプを効率的にモデル化することを提案する。
論文 参考訳(メタデータ) (2020-10-07T08:03:58Z) - Empower Entity Set Expansion via Language Model Probing [58.78909391545238]
既存の拡張方法は、コンテキスト特徴を適応的に選択し、新しいエンティティを抽出することで、シードエンティティをブートストラップする。
エンティティセット拡張の鍵となる課題は、クラスセマンティクスをシフトし、後のイテレーションで累積エラーにつながる曖昧なコンテキスト機能を選択することを避けることである。
セマンティックドリフト問題に対処するために、自動生成されたクラス名を活用する新しい反復的集合拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T00:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。