論文の概要: DWIE: an entity-centric dataset for multi-task document-level
information extraction
- arxiv url: http://arxiv.org/abs/2009.12626v2
- Date: Tue, 9 Mar 2021 13:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:55:31.522200
- Title: DWIE: an entity-centric dataset for multi-task document-level
information extraction
- Title(参考訳): DWIE:マルチタスク文書レベルの情報抽出のためのエンティティ中心データセット
- Authors: Klim Zaporojets, Johannes Deleu, Chris Develder, Thomas Demeester
- Abstract要約: DWIEは、4つの主要な情報抽出(IE)アノテーションサブタスクを組み合わせた、新しく作成されたマルチタスクデータセットである。
DWIEは、完全なドキュメントのレベルで概念的エンティティの相互作用と特性を記述するエンティティ中心のデータセットとして考えられている。
- 参考スコア(独自算出の注目度): 23.412500230644433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents DWIE, the 'Deutsche Welle corpus for Information
Extraction', a newly created multi-task dataset that combines four main
Information Extraction (IE) annotation subtasks: (i) Named Entity Recognition
(NER), (ii) Coreference Resolution, (iii) Relation Extraction (RE), and (iv)
Entity Linking. DWIE is conceived as an entity-centric dataset that describes
interactions and properties of conceptual entities on the level of the complete
document. This contrasts with currently dominant mention-driven approaches that
start from the detection and classification of named entity mentions in
individual sentences. Further, DWIE presented two main challenges when building
and evaluating IE models for it. First, the use of traditional mention-level
evaluation metrics for NER and RE tasks on entity-centric DWIE dataset can
result in measurements dominated by predictions on more frequently mentioned
entities. We tackle this issue by proposing a new entity-driven metric that
takes into account the number of mentions that compose each of the predicted
and ground truth entities. Second, the document-level multi-task annotations
require the models to transfer information between entity mentions located in
different parts of the document, as well as between different tasks, in a joint
learning setting. To realize this, we propose to use graph-based neural message
passing techniques between document-level mention spans. Our experiments show
an improvement of up to 5.5 F1 percentage points when incorporating neural
graph propagation into our joint model. This demonstrates DWIE's potential to
stimulate further research in graph neural networks for representation learning
in multi-task IE. We make DWIE publicly available at
https://github.com/klimzaporojets/DWIE.
- Abstract(参考訳): 本稿では、4つの主要な情報抽出(IE)アノテーションサブタスクを組み合わせたマルチタスクデータセットである「Deutsche Welle corpus for Information extract」について述べる。
(i)名前付きエンティティ認識(NER)
(ii)基準分解能
(iii)関係抽出(re)及び
(iv)エンティティリンク。
DWIEは、完全なドキュメントのレベルで概念的エンティティの相互作用と特性を記述するエンティティ中心のデータセットとして考えられている。
これは、個々の文における名前付きエンティティの言及の検出と分類から始まる、現在支配的な言及駆動アプローチとは対照的である。
さらに、DWIEはIEモデルの構築と評価において2つの大きな課題を提示した。
まず、NERおよびREタスクに対する従来の参照レベル評価メトリクスをエンティティ中心のDWIEデータセットに使用することにより、より頻繁に言及されるエンティティの予測に支配される測定結果が得られる。
我々は、予測された真理エンティティと基礎的真理エンティティのそれぞれを構成する言及の数を考慮して、新しいエンティティ駆動のメトリクスを提案することで、この問題に取り組む。
第二に、ドキュメントレベルのマルチタスクアノテーションでは、モデルがドキュメントの異なる部分にあるエンティティ参照間の情報や、異なるタスク間の情報を、共同学習環境で転送する必要がある。
これを実現するために,文書レベルの参照スパン間のグラフベースのニューラルメッセージパッシング手法を提案する。
実験の結果, 関節モデルに神経グラフの伝播を取り入れた場合, 最大5.5F1ポイントの改善が得られた。
これは、マルチタスクIEにおける表現学習のためのグラフニューラルネットワークのさらなる研究を促進するDWIEの可能性を示している。
DWIEはhttps://github.com/klimzaporojets/DWIEで公開しています。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Injecting Knowledge Base Information into End-to-End Joint Entity and
Relation Extraction and Coreference Resolution [13.973471173349072]
我々は、教師なしエンティティリンクに基づいて、そのようなIEモデルの知識ベース(KB)から情報を注入する方法を研究する。
使用済みKBエンティティ表現は、(i)ハイパーリンクテキスト文書(Wikipedia)または(ii)知識グラフ(Wikidata)から学習される。
論文 参考訳(メタデータ) (2021-07-05T21:49:02Z) - Cross-Task Instance Representation Interactions and Label Dependencies
for Joint Information Extraction with Graph Convolutional Networks [21.267427578268958]
本稿では,1つのモデル(FourIE)でIEの4つのタスクを同時に解くための新しいディープラーニングモデルを提案する。
4つのIEタスクを共同実行する以前の作業と比べて、FourIEはタスク間の依存関係をキャプチャする2つの新しいコントリビューションを特徴としている。
提案モデルは,3つの異なる言語を用いた単言語学習と多言語学習の両方において,ieの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-16T21:23:50Z) - Adaptive Attentional Network for Few-Shot Knowledge Graph Completion [16.722373937828117]
Few-shot Knowledge Graph (KG) の完成は、現在の研究の焦点であり、各タスクは、数少ない参照エンティティペアを考えると、関係の見えない事実をクエリすることを目的としている。
最近の試みでは、エンティティと参照の静的表現を学習し、それらの動的特性を無視してこの問題を解決している。
本研究は,適応実体と参照表現を学習することにより,数ショットのKG補完のための適応的注意ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-19T16:27:48Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。