Fugu-MT 論文翻訳(概要): BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations

論文の概要: BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations

arxiv url: http://arxiv.org/abs/2501.03403v1
Date: Mon, 06 Jan 2025 21:46:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:02.901827
Title: BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations
Title（参考訳）: BoundingDocs:空間アノテーションによる文書質問応答のための統一データセット
Authors: Simone Giovannini, Fabio Coppini, Andrea Gemelli, Simone Marinai,
Abstract要約: 文書質問回答(QA)のための統合データセットを提案する。情報抽出(IE)などの既存の文書AIタスクを質問応答タスクに再構成する。一方、全文書のOCRを公開し、文書画像中の回答の正確な位置をバウンディングボックスとして含む。
参考スコア（独自算出の注目度）: 2.9798896492745537
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a unified dataset for document Question-Answering (QA), which is obtained combining several public datasets related to Document AI and visually rich document understanding (VRDU). Our main contribution is twofold: on the one hand we reformulate existing Document AI tasks, such as Information Extraction (IE), into a Question-Answering task, making it a suitable resource for training and evaluating Large Language Models; on the other hand, we release the OCR of all the documents and include the exact position of the answer to be found in the document image as a bounding box. Using this dataset, we explore the impact of different prompting techniques (that might include bounding box information) on the performance of open-weight models, identifying the most effective approaches for document comprehension.
Abstract（参考訳）: 本稿では、ドキュメントAIに関連する複数の公開データセットと、視覚的にリッチな文書理解(VRDU)を組み合わせた文書質問回答(QA)の統一データセットを提案する。一方、我々は、既存の文書AIタスクである情報抽出(IE)を質問応答タスクに再構成し、大規模言語モデルの訓練および評価に最適なリソースとし、一方、すべての文書のOCRをリリースし、文書イメージにある回答の正確な位置をバウンディングボックスとして含めます。このデータセットを用いて、オープンウェイトモデルの性能に対する異なるプロンプト技術(バウンディングボックス情報を含むかもしれない)の影響を調査し、文書理解の最も効果的なアプローチを特定する。

関連論文リスト

DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting [3.657237256134889]
実世界のアプリケーションにおける文書理解には、複数の文書を縫合した異種多ページの文書パケットを処理する必要があることが多い。本稿では,最初の包括的なベンチマークデータセットであるDocSplitと,大規模言語モデルの文書パケット分割機能を評価するための新たな評価指標を提案する。このベンチマークは、注文外ページ、インターリーブされたドキュメント、明確な区切りのないドキュメントなど、現実世界の課題に対処する。
論文参考訳（メタデータ） (2026-02-17T19:17:55Z)
ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文参考訳（メタデータ） (2025-04-14T01:50:33Z)
DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文参考訳（メタデータ） (2024-10-04T00:53:32Z)
Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。セグメント化されたパスの表現を1つのドキュメント表現にマージする。我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文参考訳（メタデータ） (2024-04-05T10:26:42Z)
Open Domain Multi-document Summarization: A Comprehensive Study of Model Brittleness under Retrieval [42.73076855699184]
マルチドキュメント要約(MDS)は、一連のトピック関連の文書が入力として提供されると仮定する。タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、より困難な設定について研究する。
論文参考訳（メタデータ） (2022-12-20T18:41:38Z)
Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文参考訳（メタデータ） (2022-12-05T22:14:49Z)
Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。 LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文参考訳（メタデータ） (2022-07-14T07:59:45Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。 5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文参考訳（メタデータ） (2020-10-23T22:38:18Z)
SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文参考訳（メタデータ） (2020-05-01T17:30:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。