論文の概要: Benchmarking Open-Source Layout Detection Models for Data Snapshot Extraction from Institutional Documents
- arxiv url: http://arxiv.org/abs/2606.06242v1
- Date: Thu, 04 Jun 2026 14:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.867243
- Title: Benchmarking Open-Source Layout Detection Models for Data Snapshot Extraction from Institutional Documents
- Title(参考訳): 機関文書からのデータスナップショット抽出のためのオープンソースのレイアウト検出モデルのベンチマーク
- Authors: AJ Carl P. Dy, Aivin V. Solatorio,
- Abstract要約: テキストデータスナップショット抽出のためのベンチマークデータセットと評価フレームワークを提案する。
複数のオープンソースのレイアウト検出モデルをベンチマークし、検出性能と空間抽出品質を評価した。
これらの知見は、汎用文書レイアウト分析と運用上有用なデータスナップショット抽出の間に持続的なギャップを浮き彫りにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Institutional documents contain substantial amounts of operational and analytical information embedded within figures and tables. Current approaches for extracting visual content from documents are largely built around generic document layout analysis, where figures and tables are treated as uniformly relevant document objects rather than semantically meaningful analytical artifacts. In this work, we introduce a benchmark dataset and evaluation framework for \textit{data snapshot extraction}, the task of identifying and localizing semantically meaningful visual artifacts within institutional documents. The benchmark spans humanitarian reports, World Bank policy research working papers, and project appraisal documents, and includes annotations for figures and tables that contain reusable analytical information. Using this dataset, we benchmarked multiple open-source layout detection models and evaluated both detection performance and spatial extraction quality. Our results show that current models struggle to generalize to operational institutional documents despite strong performance on conventional academic benchmarks. Common failure modes include confusion between analytical and non-analytical content, fragmentation of composite analytical artifacts, and incomplete extraction of contextual information required for interpretation. These findings highlight a persistent gap between generic document layout analysis and operationally useful data snapshot extraction. We release the source PDFs, annotation dataset, metadata, and source code to support future research in operational document intelligence. The dataset is available at https://huggingface.co/datasets/ai4data/data-snapshot and the source code is available at https://github.com/worldbank/ai4data/tree/main/experimental/data-snapshot.
- Abstract(参考訳): 機関文書には、図表や表に埋め込まれたかなりの量の運用情報と分析情報が含まれている。
文書から視覚的コンテンツを抽出するための現在のアプローチは、主に汎用的な文書レイアウト分析に基づいて構築されており、図形と表は意味論的に意味のある分析成果物ではなく、一様に関連のある文書オブジェクトとして扱われる。
本研究では,機関文書内の意味的に意味のある視覚的アーティファクトを識別・ローカライズするタスクであるtextit{data snapshot extract} のベンチマークデータセットと評価フレームワークを紹介する。
このベンチマークは人道的な報告書、世界銀行の政策調査作業書類、プロジェクト評価文書にまたがっており、再利用可能な分析情報を含む数字や表のアノテーションを含んでいる。
このデータセットを用いて,複数のオープンソースのレイアウト検出モデルをベンチマークし,検出性能と空間抽出品質の両方を評価した。
本結果から,従来の学術ベンチマークでは高い性能を示しながらも,運用機関文書への一般化に苦慮していることが明らかとなった。
一般的な障害モードには、分析的内容と非分析的内容の混同、複合的分析的アーティファクトの断片化、解釈に必要な文脈情報の不完全な抽出が含まれる。
これらの知見は、汎用文書レイアウト分析と運用上有用なデータスナップショット抽出の間に持続的なギャップを浮き彫りにする。
我々は、今後の運用文書インテリジェンス研究を支援するために、ソースPDF、アノテーションデータセット、メタデータ、ソースコードをリリースする。
データセットはhttps://huggingface.co/datasets/ai4data/data-snapshotで、ソースコードはhttps://github.com/worldbank/ai4data/tree/main/experimental/data-snapshotで入手できる。
関連論文リスト
- DocDjinn: Controllable Synthetic Document Generation with VLMs and Handwriting Diffusion [5.342168661302001]
視覚言語モデル(VLM)を用いた制御可能な合成文書生成のための新しいフレームワークを提案する。
提案手法は,既存のソースデータセットの分布に従う視覚的かつ意味論的に一貫した合成文書を生成する。
我々のフレームワークは、実世界のデータセット全体のパフォーマンスに対して平均87%の価格で達成されていることを示す。
論文 参考訳(メタデータ) (2026-02-25T11:52:13Z) - ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images [19.490609860018804]
文書画像から構造化情報抽出(IE)のための新しいベンチマークデータセットであるExStrucTinyを紹介する。
ExStrucTinyは、手動と合成された人間のバリデーションサンプルを組み合わせた、新しいパイプラインで構築されている。
このベンチマークでオープンでクローズドなビジョン言語モデルを分析し、適応、クエリアンダーセグメンテーション、スキーマ適応といった課題を強調します。
論文 参考訳(メタデータ) (2026-02-12T17:38:57Z) - LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - Enhancing Document Information Analysis with Multi-Task Pre-training: A
Robust Approach for Information Extraction in Visually-Rich Documents [8.49076413640561]
モデルは事前訓練され、その後、様々な文書画像解析タスクのために微調整される。
提案されたモデルは、文書分類のためのRVL-CDIPデータセットで95.87%の精度で、すべてのタスクで印象的な結果を得た。
論文 参考訳(メタデータ) (2023-10-25T10:22:30Z) - Leveraging Contextual Information for Effective Entity Salience Detection [21.30389576465761]
クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。
また、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T19:04:40Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。