論文の概要: MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing
- arxiv url: http://arxiv.org/abs/2605.22100v2
- Date: Thu, 28 May 2026 08:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.527253
- Title: MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing
- Title(参考訳): MPDocBench-Parse: 実践的なマルチページドキュメント解析のベンチマーク
- Authors: Bangbang Zhou, Hangdi Xing, Yifan Chen, Jianjun Xu, Qi Zheng, Feiyu Gao, Zhibo Yang, Shuai Bai, Ming Yan, Jieping Ye, Hongtao Xie,
- Abstract要約: MPDocBench-Parseは、現実世界のアプリケーションにおけるマルチページ文書解析のためのベンチマークである。
433の注釈付き文書に3,246ページあり、英語と中国語の15種類の文書を網羅しており、レイアウトは様々である。
- 参考スコア(独自算出の注目度): 74.84107522458798
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document parsing converts visually rich documents into machine-readable structured representations, forming a crucial foundation for information systems. Although many benchmarks have been proposed for document parsing, they remain inadequate for realistic scenarios. Existing benchmarks either focus on specific tasks or assess only single-page, text-centric settings, making them insufficient for practical multi-page parsing. Moreover, they lack fine-grained evaluation of semantic continuity, hierarchical structure recovery, and visual content preservation. To address these gaps, we propose MPDocBench-Parse, a benchmark for multi-page document parsing in real-world applications. It contains 433 manually annotated documents with 3,246 pages, covering 15 document types in English and Chinese, with diverse layout styles, and supports document-level end-to-end evaluation. We further design a comprehensive protocol for content fidelity and logical structure, covering text, table, and formula recognition, truncated text and table merging, figure extraction, reading order, and heading hierarchy recovery. Experiments show that, while existing models perform well on basic text extraction, they still suffer clear limitations in semantic continuity integration, visual content parsing, and hierarchical structure recovery. MPDocBench-Parse provides a unified foundation for advancing document parsing toward more realistic scenarios.
- Abstract(参考訳): 文書解析は視覚的に豊かな文書を機械可読な構造化表現に変換し、情報システムにとって重要な基盤を形成する。
文書解析には多くのベンチマークが提案されているが、現実的なシナリオには不適当である。
既存のベンチマークでは、特定のタスクにフォーカスするか、単一のページのみをテキスト中心の設定で評価することで、実用的なマルチページ解析には不十分である。
さらに, 意味的連続性, 階層構造回復, 視覚的コンテンツ保存の詳細な評価が欠如している。
これらのギャップに対処するため,MPDocBench-Parseを提案する。
433の注釈付き文書が3,246ページあり、英語と中国語の15種類の文書を網羅しており、レイアウトは様々であり、文書レベルのエンドツーエンド評価をサポートしている。
さらに、テキスト、テーブル、公式認識、切り離されたテキストとテーブルのマージ、図形抽出、読み出し順序、見出し階層の回復を網羅する、コンテンツ忠実性と論理構造のための包括的プロトコルを設計する。
実験によると、既存のモデルは基本的なテキスト抽出でうまく機能するが、セマンティックな連続性統合、ビジュアルコンテンツ解析、階層構造回復において明確な制限を被っている。
MPDocBench-Parseは、より現実的なシナリオに向けて文書解析を進めるための統一された基盤を提供する。
関連論文リスト
- Multimodal OCR: Parse Anything from Documents [72.69545534962234]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。
テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。
不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文 参考訳(メタデータ) (2026-03-13T14:42:21Z) - DISCO: Document Intelligence Suite for COmparative Evaluation [1.4425299138308667]
ドキュメントインテリジェンスには、正確なテキスト抽出と、文書コンテンツに対する信頼性の高い推論が必要である。
光文字認識 (OCR) パイプラインと視覚言語モデル (VLM) を個別に評価し, 多様な文書タイプにまたがる解析と質問応答について検討した。
論文 参考訳(メタデータ) (2026-03-04T14:47:34Z) - MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting [3.657237256134889]
実世界のアプリケーションにおける文書理解には、複数の文書を縫合した異種多ページの文書パケットを処理する必要があることが多い。
本稿では,最初の包括的なベンチマークデータセットであるDocSplitと,大規模言語モデルの文書パケット分割機能を評価するための新たな評価指標を提案する。
このベンチマークは、注文外ページ、インターリーブされたドキュメント、明確な区切りのないドキュメントなど、現実世界の課題に対処する。
論文 参考訳(メタデータ) (2026-02-17T19:17:55Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
スキャンされた画像から文書を解析することは、テキストの段落、図形、公式、表などの複雑な要素が絡み合っているため、依然として重要な課題である。
既存の教師付き微調整手法は、様々なドキュメントタイプにまたがる一般化に苦慮し、特にアウト・オブ・ディストリビューションデータにおいて、パフォーマンスが低下する。
本稿では、正規化編集距離カウント精度と読み出し順序保存を統合した複合報酬によるレイアウト理解を最適化する強化学習フレームワークであるLayoutRLを紹介する。
Infinity-Benchは、幅広いドキュメントタイプ、言語、構造的複雑さに対して、常に最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-10-17T06:26:59Z) - OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。
パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文 参考訳(メタデータ) (2024-12-10T16:05:56Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。