論文の概要: ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images
- arxiv url: http://arxiv.org/abs/2602.12203v1
- Date: Thu, 12 Feb 2026 17:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.961093
- Title: ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images
- Title(参考訳): ExStrucTiny: 文書画像からのスキーマ可変構造化情報抽出のためのベンチマーク
- Authors: Mathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso,
- Abstract要約: 文書画像から構造化情報抽出(IE)のための新しいベンチマークデータセットであるExStrucTinyを紹介する。
ExStrucTinyは、手動と合成された人間のバリデーションサンプルを組み合わせた、新しいパイプラインで構築されている。
このベンチマークでオープンでクローズドなビジョン言語モデルを分析し、適応、クエリアンダーセグメンテーション、スキーマ適応といった課題を強調します。
- 参考スコア(独自算出の注目度): 19.490609860018804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprise documents, such as forms and reports, embed critical information for downstream applications like data archiving, automated workflows, and analytics. Although generalist Vision Language Models (VLMs) perform well on established document understanding benchmarks, their ability to conduct holistic, fine-grained structured extraction across diverse document types and flexible schemas is not well studied. Existing Key Entity Extraction (KEE), Relation Extraction (RE), and Visual Question Answering (VQA) datasets are limited by narrow entity ontologies, simple queries, or homogeneous document types, often overlooking the need for adaptable and structured extraction. To address these gaps, we introduce ExStrucTiny, a new benchmark dataset for structured Information Extraction (IE) from document images, unifying aspects of KEE, RE, and VQA. Built through a novel pipeline combining manual and synthetic human-validated samples, ExStrucTiny covers more varied document types and extraction scenarios. We analyze open and closed VLMs on this benchmark, highlighting challenges such as schema adaptation, query under-specification, and answer localization. We hope our work provides a bedrock for improving generalist models for structured IE in documents.
- Abstract(参考訳): フォームやレポートなどのエンタープライズドキュメントは、データアーカイブ、自動化ワークフロー、分析などの下流アプリケーションに重要な情報を埋め込む。
汎用ヴィジュアル言語モデル(VLM)は、確立された文書理解ベンチマークでよく機能するが、多種多様な文書タイプと柔軟なスキーマをまたいだ包括的できめ細かな構造化抽出を行う能力は十分に研究されていない。
既存のキーエンティティ抽出(KEE)、リレーショナル抽出(RE)、ビジュアル質問回答(VQA)データセットは、狭いエンティティオントロジー、単純なクエリ、均質なドキュメントタイプによって制限される。
これらのギャップに対処するために、文書画像から構造化情報抽出(IE)を抽出し、KEE、RE、VQAを統一する新しいベンチマークデータセットであるExStrucTinyを紹介します。
ExStrucTinyは、手動と合成された人間のバリデーションサンプルを組み合わせた、新しいパイプラインで構築されている。
このベンチマークでオープンかつクローズドなVLMを分析し、スキーマ適応、クエリアンダーセグメンテーション、応答ローカライゼーションといった課題を強調した。
ドキュメント内の構造化IEのジェネラリストモデルを改善するための基盤を提供してくれることを願っています。
関連論文リスト
- MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。
また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文 参考訳(メタデータ) (2025-04-14T01:50:33Z) - Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [24.62245834301022]
文書解析は、構造化されていない半構造化された文書を構造化された機械可読データに変換するのに不可欠である。
本調査では,文書解析の現状を概観する。
モジュラーパイプラインシステムから、大規模なビジョン言語モデルによって駆動されるエンドツーエンドモデルまで、主要な方法論をカバーする。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - VRDU: A Benchmark for Visually-rich Document Understanding [22.040372755535767]
より包括的なベンチマークのためのdesiderataを特定し、Visually Rich Document Understanding (VRDU)と呼ぶものを提案する。
多様なデータ型と階層的なエンティティを含むリッチスキーマ、テーブルやマルチカラムレイアウトを含む複雑なテンプレート、単一のドキュメントタイプ内のさまざまなレイアウト(テンプレート)の多様性。
提案手法は,抽出結果を評価するために慎重に設計されたマッチングアルゴリズムとともに,数ショットおよび従来型の実験環境を設計する。
論文 参考訳(メタデータ) (2022-11-15T03:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。