論文の概要: SciREX: A Challenge Dataset for Document-Level Information Extraction
- arxiv url: http://arxiv.org/abs/2005.00512v1
- Date: Fri, 1 May 2020 17:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:20:01.133930
- Title: SciREX: A Challenge Dataset for Document-Level Information Extraction
- Title(参考訳): SciREX: ドキュメントレベル情報抽出のためのチャレンジデータセット
- Authors: Sarthak Jain, Madeleine van Zuylen, Hannaneh Hajishirzi, Iz Beltagy
- Abstract要約: ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
- 参考スコア(独自算出の注目度): 56.83748634747753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting information from full documents is an important problem in many
domains, but most previous work focus on identifying relationships within a
sentence or a paragraph. It is challenging to create a large-scale information
extraction (IE) dataset at the document level since it requires an
understanding of the whole document to annotate entities and their
document-level relationships that usually span beyond sentences or even
sections. In this paper, we introduce SciREX, a document level IE dataset that
encompasses multiple IE tasks, including salient entity identification and
document level $N$-ary relation identification from scientific articles. We
annotate our dataset by integrating automatic and human annotations, leveraging
existing scientific knowledge resources. We develop a neural model as a strong
baseline that extends previous state-of-the-art IE models to document-level IE.
Analyzing the model performance shows a significant gap between human
performance and current baselines, inviting the community to use our dataset as
a challenge to develop document-level IE models. Our data and code are publicly
available at https://github.com/allenai/SciREX
- Abstract(参考訳): 完全文書から情報を抽出することは、多くの領域において重要な問題であるが、それまでの作業は文や段落内の関係の特定に重点を置いていた。
文書全体に関する理解が必要となるため、文書レベルでは大規模な情報抽出(ie)データセットを作成することは困難である。
本稿では,複数のieタスクを包含する文書レベルのieデータセットであるscirexについて紹介する。
自動アノテーションと人的アノテーションを統合し、既存の科学的知識リソースを活用することで、データセットに注釈を付ける。
従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとしてニューラルモデルを開発する。
モデルパフォーマンスの分析は、人間のパフォーマンスと現在のベースラインの間に大きなギャップがあることを示し、コミュニティがドキュメントレベルのIEモデルを開発する上での課題として私たちのデータセットを使用するように促します。
私たちのデータとコードはhttps://github.com/allenai/SciREXで公開されています。
関連論文リスト
- DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction [48.45550809455558]
文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。
バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
論文 参考訳(メタデータ) (2023-05-24T02:53:22Z) - Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。
これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。
この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:26:14Z) - Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。
また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文 参考訳(メタデータ) (2021-06-09T02:12:18Z) - DocOIE: A Document-level Context-Aware Dataset for OpenIE [22.544165148622422]
open information extraction (openie) は文から構造化関係を抽出することを目的としている。
既存のソリューションは、追加の文脈情報を参照することなく、文レベルで抽出を行う。
ドキュメントレベルの新しいOpenIEモデルであるDocIEを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:14:30Z) - DWIE: an entity-centric dataset for multi-task document-level
information extraction [23.412500230644433]
DWIEは、4つの主要な情報抽出(IE)アノテーションサブタスクを組み合わせた、新しく作成されたマルチタスクデータセットである。
DWIEは、完全なドキュメントのレベルで概念的エンティティの相互作用と特性を記述するエンティティ中心のデータセットとして考えられている。
論文 参考訳(メタデータ) (2020-09-26T15:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。