Fugu-MT 論文翻訳(概要): SciREX: A Challenge Dataset for Document-Level Information Extraction

論文の概要: SciREX: A Challenge Dataset for Document-Level Information Extraction

arxiv url: http://arxiv.org/abs/2005.00512v1
Date: Fri, 1 May 2020 17:30:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 23:20:01.133930
Title: SciREX: A Challenge Dataset for Document-Level Information Extraction
Title（参考訳）: SciREX: ドキュメントレベル情報抽出のためのチャレンジデータセット
Authors: Sarthak Jain, Madeleine van Zuylen, Hannaneh Hajishirzi, Iz Beltagy
Abstract要約: ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
参考スコア（独自算出の注目度）: 56.83748634747753
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Extracting information from full documents is an important problem in many domains, but most previous work focus on identifying relationships within a sentence or a paragraph. It is challenging to create a large-scale information extraction (IE) dataset at the document level since it requires an understanding of the whole document to annotate entities and their document-level relationships that usually span beyond sentences or even sections. In this paper, we introduce SciREX, a document level IE dataset that encompasses multiple IE tasks, including salient entity identification and document level $N$-ary relation identification from scientific articles. We annotate our dataset by integrating automatic and human annotations, leveraging existing scientific knowledge resources. We develop a neural model as a strong baseline that extends previous state-of-the-art IE models to document-level IE. Analyzing the model performance shows a significant gap between human performance and current baselines, inviting the community to use our dataset as a challenge to develop document-level IE models. Our data and code are publicly available at https://github.com/allenai/SciREX
Abstract（参考訳）: 完全文書から情報を抽出することは、多くの領域において重要な問題であるが、それまでの作業は文や段落内の関係の特定に重点を置いていた。文書全体に関する理解が必要となるため、文書レベルでは大規模な情報抽出(ie)データセットを作成することは困難である。本稿では,複数のieタスクを包含する文書レベルのieデータセットであるscirexについて紹介する。自動アノテーションと人的アノテーションを統合し、既存の科学的知識リソースを活用することで、データセットに注釈を付ける。従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとしてニューラルモデルを開発する。モデルパフォーマンスの分析は、人間のパフォーマンスと現在のベースラインの間に大きなギャップがあることを示し、コミュニティがドキュメントレベルのIEモデルを開発する上での課題として私たちのデータセットを使用するように促します。私たちのデータとコードはhttps://github.com/allenai/SciREXで公開されています。

関連論文リスト

ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations [2.9798896492745537]
文書質問回答(QA)のための統合データセットを提案する。情報抽出(IE)などの既存の文書AIタスクを質問応答タスクに再構成する。一方、全文書のOCRを公開し、文書画像中の回答の正確な位置をバウンディングボックスとして含む。
論文参考訳（メタデータ） (2025-01-06T21:46:22Z)
DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文参考訳（メタデータ） (2024-06-17T15:13:52Z)
ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文参考訳（メタデータ） (2024-05-08T12:24:52Z)
On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。 FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-01T17:51:43Z)
DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文参考訳（メタデータ） (2023-06-15T08:21:15Z)
InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration in Improving the Performance of Information Extraction [48.45550809455558]
文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
論文参考訳（メタデータ） (2023-05-24T02:53:22Z)
Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文参考訳（メタデータ） (2023-03-01T18:26:14Z)
Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文参考訳（メタデータ） (2021-06-09T02:12:18Z)
DocOIE: A Document-level Context-Aware Dataset for OpenIE [22.544165148622422]
open information extraction (openie) は文から構造化関係を抽出することを目的としている。既存のソリューションは、追加の文脈情報を参照することなく、文レベルで抽出を行う。ドキュメントレベルの新しいOpenIEモデルであるDocIEを提案する。
論文参考訳（メタデータ） (2021-05-10T11:14:30Z)
DWIE: an entity-centric dataset for multi-task document-level information extraction [23.412500230644433]
DWIEは、4つの主要な情報抽出(IE)アノテーションサブタスクを組み合わせた、新しく作成されたマルチタスクデータセットである。 DWIEは、完全なドキュメントのレベルで概念的エンティティの相互作用と特性を記述するエンティティ中心のデータセットとして考えられている。
論文参考訳（メタデータ） (2020-09-26T15:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。