論文の概要: Document Intelligence Metrics for Visually Rich Document Evaluation
- arxiv url: http://arxiv.org/abs/2205.11215v1
- Date: Mon, 23 May 2022 11:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:22:34.814582
- Title: Document Intelligence Metrics for Visually Rich Document Evaluation
- Title(参考訳): 視覚的にリッチな文書評価のためのドキュメントインテリジェンスメトリクス
- Authors: Jonathan DeGange, Swapnil Gupta, Zhuoyu Han, Krzysztof Wilkosz, Adam
Karwan
- Abstract要約: 本稿では,VRDモデル評価専用のPythonライブラリであるDI-Metricsを紹介する。
公開されているCORDデータセットを用いて情報抽出性能を評価するためにDI-Metricsを適用した。
- 参考スコア(独自算出の注目度): 0.10499611180329803
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The processing of Visually-Rich Documents (VRDs) is highly important in
information extraction tasks associated with Document Intelligence. We
introduce DI-Metrics, a Python library devoted to VRD model evaluation
comprising text-based, geometric-based and hierarchical metrics for information
extraction tasks. We apply DI-Metrics to evaluate information extraction
performance using publicly available CORD dataset, comparing performance of
three SOTA models and one industry model. The open-source library is available
on GitHub.
- Abstract(参考訳): 視覚的にリッチな文書(vrd)の処理は、文書知性に関連する情報抽出タスクにおいて非常に重要である。
本稿では,情報抽出タスクのためのテキストベース,幾何学的,階層的メトリクスからなるVRDモデル評価専用のPythonライブラリであるDI-Metricsを紹介する。
公開コードデータセットを用いた情報抽出性能の評価にdi-metricsを応用し、3つのsomaモデルと1つの産業モデルのパフォーマンスを比較した。
オープンソースライブラリはgithubから入手できる。
関連論文リスト
- CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Non-Parametric Memory Guidance for Multi-Document Summarization [0.0]
本稿では,非パラメトリックメモリと組み合わせたレトリバー誘導モデルを提案する。
このモデルはデータベースから関連する候補を検索し、その候補をコピー機構とソースドキュメントで考慮して要約を生成する。
本手法は,学術論文を含むMultiXScienceデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-11-14T07:41:48Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow
Articles [8.53502615629675]
クエリ中心のマルチドキュメント要約(qMDS)タスクのための,新たな大規模データセットであるHowSummを提案する。
このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースと異なり、教育や産業のシナリオに適用できる。
データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。
論文 参考訳(メタデータ) (2021-10-07T04:44:32Z) - Document-level Relation Extraction as Semantic Segmentation [38.614931876015625]
文書レベルの関係抽出は、文書から複数のエンティティペア間の関係を抽出することを目的としている。
本稿では,局所的およびグローバルな情報を取得するために,エンティティレベルの関係行列を予測することで,この問題に対処する。
文書レベルの関係抽出のための文書U字型ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-07T13:44:44Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z) - SacreROUGE: An Open-Source Library for Using and Developing
Summarization Evaluation Metrics [74.28810048824519]
SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。
このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。
ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
論文 参考訳(メタデータ) (2020-07-10T13:26:37Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。