論文の概要: Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing
- arxiv url: http://arxiv.org/abs/2510.15349v2
- Date: Mon, 20 Oct 2025 11:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.544286
- Title: Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing
- Title(参考訳): Infinity Parser: Scanned Document Parsingのためのレイアウトアウェア強化学習
- Authors: Baode Wang, Biao Wu, Weizhen Li, Meng Fang, Zuming Huang, Jun Huang, Haozhe Wang, Yanjie Liang, Ling Chen, Wei Chu, Yuan Qi,
- Abstract要約: スキャンされた画像から文書を解析することは、テキストの段落、図形、公式、表などの複雑な要素が絡み合っているため、依然として重要な課題である。
既存の教師付き微調整手法は、様々なドキュメントタイプにまたがる一般化に苦慮し、特にアウト・オブ・ディストリビューションデータにおいて、パフォーマンスが低下する。
本稿では、正規化編集距離カウント精度と読み出し順序保存を統合した複合報酬によるレイアウト理解を最適化する強化学習フレームワークであるLayoutRLを紹介する。
Infinity-Benchは、幅広いドキュメントタイプ、言語、構造的複雑さに対して、常に最先端のパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 46.14775667559124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document parsing from scanned images into structured formats remains a significant challenge due to its complexly intertwined elements such as text paragraphs, figures, formulas, and tables. Existing supervised fine-tuning methods often struggle to generalize across diverse document types, leading to poor performance, particularly on out-of-distribution data. This issue is further exacerbated by the limited availability of high-quality training data for layout-aware parsing tasks. To address these challenges, we introduce LayoutRL, a reinforcement learning framework that optimizes layout understanding through composite rewards integrating normalized edit distance, paragraph count accuracy, and reading order preservation. To support this training, we construct the Infinity-Doc-400K dataset, which we use to train Infinity-Parser, a vision-language model demonstrating robust generalization across various domains. Extensive evaluations on benchmarks including OmniDocBench, olmOCR-Bench, PubTabNet, and FinTabNet show that Infinity-Parser consistently achieves state-of-the-art performance across a broad range of document types, languages, and structural complexities, substantially outperforming both specialized document parsing systems and general-purpose vision-language models. We will release our code, dataset, and model to facilitate reproducible research in document parsing.
- Abstract(参考訳): スキャンされた画像から構造化されたフォーマットへの文書解析は、テキストの段落、図形、公式、表などの複雑な要素が絡み合っているため、依然として重要な課題である。
既存の教師付き微調整手法は、様々なドキュメントタイプにまたがる一般化に苦慮し、特にアウト・オブ・ディストリビューションデータにおいて、パフォーマンスが低下する。
この問題は、レイアウト対応の構文解析タスクのための高品質なトレーニングデータの不足によってさらに悪化している。
これらの課題に対処するために、正規化編集距離、段数精度、読み出し順序保存を統合した複合報酬によるレイアウト理解を最適化する強化学習フレームワークであるLayoutRLを紹介した。
このトレーニングを支援するために、Infinity-Doc-400Kデータセットを構築し、さまざまなドメインにわたる堅牢な一般化を示す視覚言語モデルであるInfinity-Parserをトレーニングする。
OmniDocBench、olmOCR-Bench、PubTabNet、FinTabNetといったベンチマークの広範な評価によると、Infinity-Parserは、幅広いドキュメントタイプ、言語、構造的複雑さにわたって、一貫して最先端のパフォーマンスを達成しており、特殊文書解析システムと汎用視覚言語モデルの両方よりも大幅に向上している。
私たちは、文書解析における再現可能な研究を容易にするために、コード、データセット、モデルをリリースします。
関連論文リスト
- Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [37.052999707460636]
layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
論文 参考訳(メタデータ) (2025-06-01T15:19:52Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [24.62245834301022]
文書解析は、構造化されていない半構造化された文書を構造化された機械可読データに変換するのに不可欠である。
本調査では,文書解析の現状を概観する。
モジュラーパイプラインシステムから、大規模なビジョン言語モデルによって駆動されるエンドツーエンドモデルまで、主要な方法論をカバーする。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。