論文の概要: SciREX: A Challenge Dataset for Document-Level Information Extraction
- arxiv url: http://arxiv.org/abs/2005.00512v1
- Date: Fri, 1 May 2020 17:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:20:01.133930
- Title: SciREX: A Challenge Dataset for Document-Level Information Extraction
- Title(参考訳): SciREX: ドキュメントレベル情報抽出のためのチャレンジデータセット
- Authors: Sarthak Jain, Madeleine van Zuylen, Hannaneh Hajishirzi, Iz Beltagy
- Abstract要約: ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
- 参考スコア(独自算出の注目度): 56.83748634747753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting information from full documents is an important problem in many
domains, but most previous work focus on identifying relationships within a
sentence or a paragraph. It is challenging to create a large-scale information
extraction (IE) dataset at the document level since it requires an
understanding of the whole document to annotate entities and their
document-level relationships that usually span beyond sentences or even
sections. In this paper, we introduce SciREX, a document level IE dataset that
encompasses multiple IE tasks, including salient entity identification and
document level $N$-ary relation identification from scientific articles. We
annotate our dataset by integrating automatic and human annotations, leveraging
existing scientific knowledge resources. We develop a neural model as a strong
baseline that extends previous state-of-the-art IE models to document-level IE.
Analyzing the model performance shows a significant gap between human
performance and current baselines, inviting the community to use our dataset as
a challenge to develop document-level IE models. Our data and code are publicly
available at https://github.com/allenai/SciREX
- Abstract(参考訳): 完全文書から情報を抽出することは、多くの領域において重要な問題であるが、それまでの作業は文や段落内の関係の特定に重点を置いていた。
文書全体に関する理解が必要となるため、文書レベルでは大規模な情報抽出(ie)データセットを作成することは困難である。
本稿では,複数のieタスクを包含する文書レベルのieデータセットであるscirexについて紹介する。
自動アノテーションと人的アノテーションを統合し、既存の科学的知識リソースを活用することで、データセットに注釈を付ける。
従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとしてニューラルモデルを開発する。
モデルパフォーマンスの分析は、人間のパフォーマンスと現在のベースラインの間に大きなギャップがあることを示し、コミュニティがドキュメントレベルのIEモデルを開発する上での課題として私たちのデータセットを使用するように促します。
私たちのデータとコードはhttps://github.com/allenai/SciREXで公開されています。
関連論文リスト
- All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction [48.45550809455558]
文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。
バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
論文 参考訳(メタデータ) (2023-05-24T02:53:22Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。
また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文 参考訳(メタデータ) (2021-06-09T02:12:18Z) - DocOIE: A Document-level Context-Aware Dataset for OpenIE [22.544165148622422]
open information extraction (openie) は文から構造化関係を抽出することを目的としている。
既存のソリューションは、追加の文脈情報を参照することなく、文レベルで抽出を行う。
ドキュメントレベルの新しいOpenIEモデルであるDocIEを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:14:30Z) - DWIE: an entity-centric dataset for multi-task document-level
information extraction [23.412500230644433]
DWIEは、4つの主要な情報抽出(IE)アノテーションサブタスクを組み合わせた、新しく作成されたマルチタスクデータセットである。
DWIEは、完全なドキュメントのレベルで概念的エンティティの相互作用と特性を記述するエンティティ中心のデータセットとして考えられている。
論文 参考訳(メタデータ) (2020-09-26T15:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。