Fugu-MT 論文翻訳(概要): VRDU: A Benchmark for Visually-rich Document Understanding

論文の概要: VRDU: A Benchmark for Visually-rich Document Understanding

arxiv url: http://arxiv.org/abs/2211.15421v2
Date: Tue, 20 Jun 2023 21:34:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 18:04:21.279247
Title: VRDU: A Benchmark for Visually-rich Document Understanding
Title（参考訳）: VRDU: ビジュアルにリッチなドキュメント理解のためのベンチマーク
Authors: Zilong Wang, Yichao Zhou, Wei Wei, Chen-Yu Lee, Sandeep Tata
Abstract要約: より包括的なベンチマークのためのdesiderataを特定し、Visually Rich Document Understanding (VRDU)と呼ぶものを提案する。多様なデータ型と階層的なエンティティを含むリッチスキーマ、テーブルやマルチカラムレイアウトを含む複雑なテンプレート、単一のドキュメントタイプ内のさまざまなレイアウト(テンプレート)の多様性。提案手法は,抽出結果を評価するために慎重に設計されたマッチングアルゴリズムとともに,数ショットおよび従来型の実験環境を設計する。
参考スコア（独自算出の注目度）: 22.93258579904371
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Understanding visually-rich business documents to extract structured data and automate business workflows has been receiving attention both in academia and industry. Although recent multi-modal language models have achieved impressive results, we find that existing benchmarks do not reflect the complexity of real documents seen in industry. In this work, we identify the desiderata for a more comprehensive benchmark and propose one we call Visually Rich Document Understanding (VRDU). VRDU contains two datasets that represent several challenges: rich schema including diverse data types as well as hierarchical entities, complex templates including tables and multi-column layouts, and diversity of different layouts (templates) within a single document type. We design few-shot and conventional experiment settings along with a carefully designed matching algorithm to evaluate extraction results. We report the performance of strong baselines and offer three observations: (1) generalizing to new document templates is still very challenging, (2) few-shot performance has a lot of headroom, and (3) models struggle with hierarchical fields such as line-items in an invoice. We plan to open source the benchmark and the evaluation toolkit. We hope this helps the community make progress on these challenging tasks in extracting structured data from visually rich documents.
Abstract（参考訳）: 視覚的にリッチなビジネス文書を理解して構造化データを抽出し、ビジネスワークフローを自動化することは、学界でも業界でも注目を集めている。最近のマルチモーダル言語モデルは目覚ましい結果を得たが、既存のベンチマークは業界で見られる実際の文書の複雑さを反映していない。本稿では、より包括的なベンチマークのためのdesiderataを特定し、Visually Rich Document Understanding (VRDU)と呼ぶものを提案する。 vrduには、さまざまなデータタイプを含むリッチスキーマ、階層エンティティ、テーブルやマルチカラムレイアウトを含む複雑なテンプレート、単一のドキュメントタイプ内のさまざまなレイアウト(テンプレート)の多様性の2つが含まれている。我々は, 抽出結果を評価するために, 念入りに設計したマッチングアルゴリズムとともに, 少数および従来型の実験設定を設計する。我々は,強いベースラインのパフォーマンスを報告し,(1)新しいドキュメントテンプレートへの一般化はいまだに困難であり,(2) 少数のパフォーマンスにはヘッドルームが多く,(3) モデルは請求書中の線分などの階層的フィールドに苦しむ,という3つの観察を提示する。ベンチマークと評価ツールキットをオープンソース化する予定です。これは、視覚的にリッチなドキュメントから構造化されたデータを抽出する上で、これらの困難なタスクをコミュニティが前進させるのに役立つことを願っています。

関連論文リスト

Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。 MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。 MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文参考訳（メタデータ） (2025-07-25T03:58:07Z)
Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-14T19:19:26Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。 MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
論文参考訳（メタデータ） (2025-01-15T14:30:13Z)
LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating [40.44974704748952]
大規模視覚言語モデル(LVLM)は文書理解能力を大幅に改善した。既存の文書理解ベンチマークは少数のページしか処理できない。半自動構築パイプラインを開発し,2,325の高品質な質問応答ペアを収集し,33,000ページ以上の文書を網羅する。
論文参考訳（メタデータ） (2024-12-24T13:39:32Z)
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文参考訳（メタデータ） (2024-10-28T16:11:35Z)
Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文参考訳（メタデータ） (2024-10-26T03:07:22Z)
BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文参考訳（メタデータ） (2024-04-05T10:26:42Z)
On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。 FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-01T17:51:43Z)
Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文参考訳（メタデータ） (2023-05-03T07:30:32Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)
ReSel: N-ary Relation Extraction from Scientific Text and Tables by Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。 3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2022-10-26T02:28:02Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Multi-View Document Representation Learning for Open-Domain Dense Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文参考訳（メタデータ） (2022-03-16T03:36:38Z)
StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。本稿では,SrucTexTという統合フレームワークを提案する。セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-06T02:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。