論文の概要: Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training
- arxiv url: http://arxiv.org/abs/2603.23885v1
- Date: Wed, 25 Mar 2026 03:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.106261
- Title: Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training
- Title(参考訳): リアルなシーン合成と文書認識学習による実世界の文書解析に向けて
- Authors: Gengluo Li, Chengquan Zhang, Yupu Liang, Huawen Shen, Yaping Zhang, Pengyuan Lyu, Weinong Wang, Xingyu Wan, Gangyan Zeng, Han Hu, Can Ma, Yu Zhou,
- Abstract要約: 本稿では、堅牢なエンドツーエンド文書解析のためのデータ学習協調設計フレームワークを提案する。
本手法は,スキャン・デジタル・実世界の両方のシナリオにおいて,精度とロバスト性を向上する。
- 参考スコア(独自算出の注目度): 29.093072408848467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document parsing has recently advanced with multimodal large language models (MLLMs) that directly map document images to structured outputs. Traditional cascaded pipelines depend on precise layout analysis and often fail under casually captured or non-standard conditions. Although end-to-end approaches mitigate this dependency, they still exhibit repetitive, hallucinated, and structurally inconsistent predictions - primarily due to the scarcity of large-scale, high-quality full-page (document-level) end-to-end parsing data and the lack of structure-aware training strategies. To address these challenges, we propose a data-training co-design framework for robust end-to-end document parsing. A Realistic Scene Synthesis strategy constructs large-scale, structurally diverse full-page end-to-end supervision by composing layout templates with rich document elements, while a Document-Aware Training Recipe introduces progressive learning and structure-token optimization to enhance structural fidelity and decoding stability. We further build Wild-OmniDocBench, a benchmark derived from real-world captured documents for robustness evaluation. Integrated into a 1B-parameter MLLM, our method achieves superior accuracy and robustness across both scanned/digital and real-world captured scenarios. All models, data synthesis pipelines, and benchmarks will be publicly released to advance future research in document understanding.
- Abstract(参考訳): 文書解析は、文書画像を構造化出力に直接マッピングするマルチモーダル大言語モデル(MLLM)で最近進歩している。
従来のカスケードパイプラインは正確なレイアウト解析に依存しており、カジュアルにキャプチャされたり、非標準条件で失敗することが多い。
エンドツーエンドのアプローチは、この依存関係を緩和する一方で、大規模で高品質なフルページ(ドキュメントレベル)のエンドツーエンド解析データの不足と構造対応のトレーニング戦略の欠如による、反復的、幻覚的、構造的に一貫性のない予測を示す。
これらの課題に対処するために、堅牢なエンドツーエンド文書解析のためのデータ学習協調設計フレームワークを提案する。
ドキュメント・アウェア・トレーニング・レシピ(Document-Aware Training Recipe)では、構造化の忠実さと復号安定性を高めるために、プログレッシブ・ラーニングと構造化の最適化が導入されている。
さらにWild-OmniDocBenchは、実世界のキャプチャードキュメントから派生した、堅牢性評価のためのベンチマークである。
提案手法は,1BパラメータMLLMに統合され,スキャン・デジタル・実世界の両方のシナリオにおいて,精度とロバスト性を向上する。
すべてのモデル、データ合成パイプライン、ベンチマークが公開され、ドキュメント理解の今後の研究が進められる。
関連論文リスト
- Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
スキャンされた画像から文書を解析することは、テキストの段落、図形、公式、表などの複雑な要素が絡み合っているため、依然として重要な課題である。
既存の教師付き微調整手法は、様々なドキュメントタイプにまたがる一般化に苦慮し、特にアウト・オブ・ディストリビューションデータにおいて、パフォーマンスが低下する。
本稿では、正規化編集距離カウント精度と読み出し順序保存を統合した複合報酬によるレイアウト理解を最適化する強化学習フレームワークであるLayoutRLを紹介する。
Infinity-Benchは、幅広いドキュメントタイプ、言語、構造的複雑さに対して、常に最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-10-17T06:26:59Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
論文 参考訳(メタデータ) (2025-06-01T15:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。