Fugu-MT 論文翻訳(概要): Document Intelligence Metrics for Visually Rich Document Evaluation

論文の概要: Document Intelligence Metrics for Visually Rich Document Evaluation

arxiv url: http://arxiv.org/abs/2205.11215v1
Date: Mon, 23 May 2022 11:55:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 18:22:34.814582
Title: Document Intelligence Metrics for Visually Rich Document Evaluation
Title（参考訳）: 視覚的にリッチな文書評価のためのドキュメントインテリジェンスメトリクス
Authors: Jonathan DeGange, Swapnil Gupta, Zhuoyu Han, Krzysztof Wilkosz, Adam Karwan
Abstract要約: 本稿では,VRDモデル評価専用のPythonライブラリであるDI-Metricsを紹介する。公開されているCORDデータセットを用いて情報抽出性能を評価するためにDI-Metricsを適用した。
参考スコア（独自算出の注目度）: 0.10499611180329803
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The processing of Visually-Rich Documents (VRDs) is highly important in information extraction tasks associated with Document Intelligence. We introduce DI-Metrics, a Python library devoted to VRD model evaluation comprising text-based, geometric-based and hierarchical metrics for information extraction tasks. We apply DI-Metrics to evaluate information extraction performance using publicly available CORD dataset, comparing performance of three SOTA models and one industry model. The open-source library is available on GitHub.
Abstract（参考訳）: 視覚的にリッチな文書(vrd)の処理は、文書知性に関連する情報抽出タスクにおいて非常に重要である。本稿では,情報抽出タスクのためのテキストベース,幾何学的,階層的メトリクスからなるVRDモデル評価専用のPythonライブラリであるDI-Metricsを紹介する。公開コードデータセットを用いた情報抽出性能の評価にdi-metricsを応用し、3つのsomaモデルと1つの産業モデルのパフォーマンスを比較した。オープンソースライブラリはgithubから入手できる。

関連論文リスト

OpenDecoder: Open Large Language Model Decoding to Incorporate Document Quality in RAG [32.31189584872992]
一般に、検索された情報は、その質問に関連していると仮定される。回答生成における検索情報の関連性を考慮することが重要である。我々は,検索した情報の明示的な評価を,生成のための品質指標として活用する新しい手法であるOpenDecoderを提案する。
論文参考訳（メタデータ） (2026-01-13T23:26:30Z)
BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations [2.9798896492745537]
文書質問回答(QA)のための統合データセットを提案する。情報抽出(IE)などの既存の文書AIタスクを質問応答タスクに再構成する。一方、全文書のOCRを公開し、文書画像中の回答の正確な位置をバウンディングボックスとして含む。
論文参考訳（メタデータ） (2025-01-06T21:46:22Z)
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文参考訳（メタデータ） (2024-09-03T17:54:40Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Non-Parametric Memory Guidance for Multi-Document Summarization [0.0]
本稿では,非パラメトリックメモリと組み合わせたレトリバー誘導モデルを提案する。このモデルはデータベースから関連する候補を検索し、その候補をコピー機構とソースドキュメントで考慮して要約を生成する。本手法は,学術論文を含むMultiXScienceデータセットを用いて評価する。
論文参考訳（メタデータ） (2023-11-14T07:41:48Z)
Instruct and Extract: Instruction Tuning for On-Demand Information Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。 InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。 InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文参考訳（メタデータ） (2023-10-24T17:54:25Z)
Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。 LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文参考訳（メタデータ） (2022-07-14T07:59:45Z)
HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow Articles [8.53502615629675]
クエリ中心のマルチドキュメント要約(qMDS)タスクのための,新たな大規模データセットであるHowSummを提案する。このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースと異なり、教育や産業のシナリオに適用できる。データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。
論文参考訳（メタデータ） (2021-10-07T04:44:32Z)
Document-level Relation Extraction as Semantic Segmentation [38.614931876015625]
文書レベルの関係抽出は、文書から複数のエンティティペア間の関係を抽出することを目的としている。本稿では,局所的およびグローバルな情報を取得するために,エンティティレベルの関係行列を予測することで,この問題に対処する。文書レベルの関係抽出のための文書U字型ネットワークを提案する。
論文参考訳（メタデータ） (2021-06-07T13:44:44Z)
AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。 5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文参考訳（メタデータ） (2020-10-23T22:38:18Z)
SacreROUGE: An Open-Source Library for Using and Developing Summarization Evaluation Metrics [74.28810048824519]
SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
論文参考訳（メタデータ） (2020-07-10T13:26:37Z)
SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文参考訳（メタデータ） (2020-05-01T17:30:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。