論文の概要: DocOIE: A Document-level Context-Aware Dataset for OpenIE
- arxiv url: http://arxiv.org/abs/2105.04271v2
- Date: Tue, 11 May 2021 01:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 11:18:23.264033
- Title: DocOIE: A Document-level Context-Aware Dataset for OpenIE
- Title(参考訳): DocOIE: OpenIE用のドキュメントレベルのコンテキスト認識データセット
- Authors: Kuicai Dong, Yilin Zhao, Aixin Sun, Jung-Jae Kim, Xiaoli Li
- Abstract要約: open information extraction (openie) は文から構造化関係を抽出することを目的としている。
既存のソリューションは、追加の文脈情報を参照することなく、文レベルで抽出を行う。
ドキュメントレベルの新しいOpenIEモデルであるDocIEを提案する。
- 参考スコア(独自算出の注目度): 22.544165148622422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open Information Extraction (OpenIE) aims to extract structured relational
tuples (subject, relation, object) from sentences and plays critical roles for
many downstream NLP applications. Existing solutions perform extraction at
sentence level, without referring to any additional contextual information. In
reality, however, a sentence typically exists as part of a document rather than
standalone; we often need to access relevant contextual information around the
sentence before we can accurately interpret it. As there is no document-level
context-aware OpenIE dataset available, we manually annotate 800 sentences from
80 documents in two domains (Healthcare and Transportation) to form a DocOIE
dataset for evaluation. In addition, we propose DocIE, a novel document-level
context-aware OpenIE model. Our experimental results based on DocIE demonstrate
that incorporating document-level context is helpful in improving OpenIE
performance. Both DocOIE dataset and DocIE model are released for public.
- Abstract(参考訳): Open Information extract (OpenIE) は、文から構造化されたリレーショナルタプル(オブジェクト、リレーショナル、オブジェクト)を抽出し、多くの下流NLPアプリケーションにおいて重要な役割を果たすことを目的としている。
既存のソリューションは、追加の文脈情報を参照することなく、文レベルで抽出を行う。
しかし、実際には、文はスタンドアローンではなく文書の一部として存在し、それを正確に解釈する前に、文の周りの関連する文脈情報にアクセスする必要があることが多い。
文書レベルのコンテキスト対応のOpenIEデータセットが存在しないため、2つのドメイン(ヘルスケアと交通)の80のドキュメントから800の文を手動で注釈付けして、評価のためのDocOIEデータセットを作成します。
さらに,新しい文書レベルの文脈対応OpenIEモデルであるDocIEを提案する。
ドキュメントレベルのコンテキストの導入がopenieのパフォーマンス向上に有効であることを示す。
DocOIEデータセットとDocIEモデルの両方が一般公開されている。
関連論文リスト
- DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking [11.374031643273941]
REXELは文書レベルcIE(DocIE)の共同作業のための高効率かつ高精度なモデルである
同様の環境では、競合する既存のアプローチよりも平均11倍高速です。
速度と精度の組み合わせにより、REXELはWebスケールで構造化された情報を抽出する正確なコスト効率のシステムとなる。
論文 参考訳(メタデータ) (2024-04-19T11:04:27Z) - BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - Open Domain Multi-document Summarization: A Comprehensive Study of Model
Brittleness under Retrieval [42.73076855699184]
マルチドキュメント要約(MDS)は、一連のトピック関連の文書が入力として提供されると仮定する。
タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、より困難な設定について研究する。
論文 参考訳(メタデータ) (2022-12-20T18:41:38Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。