論文の概要: Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing
- arxiv url: http://arxiv.org/abs/2506.03197v1
- Date: Sun, 01 Jun 2025 15:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.938373
- Title: Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing
- Title(参考訳): Infinity Parser: Scanned Document Parsingのためのレイアウトアウェア強化学習
- Authors: Baode Wang, Biao Wu, Weizhen Li, Meng Fang, Yanjie Liang, Zuming Huang, Haozhe Wang, Jun Huang, Ling Chen, Wei Chu, Yuan Qi,
- Abstract要約: layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
- 参考スコア(独自算出の注目度): 37.052999707460636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated parsing of scanned documents into richly structured, machine-readable formats remains a critical bottleneck in Document AI, as traditional multi-stage pipelines suffer from error propagation and limited adaptability to diverse layouts. We introduce layoutRL, an end-to-end reinforcement learning framework that trains models to be explicitly layout-aware by optimizing a composite reward of normalized edit distance, paragraph count accuracy, and reading order preservation. Leveraging our newly released dataset, Infinity-Doc-55K, which combines 55K high-fidelity synthetic scanned document parsing data with expert-filtered real-world documents, we instantiate layoutRL in a vision-language-model-based parser called Infinity-Parser. Evaluated on English and Chinese benchmarks for OCR, table and formula extraction, and reading order detection, Infinity-Parser achieves new state-of-the-art performance in both accuracy and structural fidelity, outpacing specialist pipelines and general-purpose vision-language models. We will publicly release our code and dataset to accelerate progress in robust document understanding.
- Abstract(参考訳): スキャンされたドキュメントのリッチな構造化されたマシン可読フォーマットへの自動解析は、従来のマルチステージパイプラインがエラーの伝搬と多様なレイアウトへの適応性の制限に悩まされているため、Document AIにおいて依然として重要なボトルネックとなっている。
正規化編集距離, 段数精度, 読み出し順序保存の複合報酬を最適化することにより, レイアウトを明示的に認識するようにモデルを訓練するエンド・ツー・エンド強化学習フレームワークであるレイアウトRLを導入する。
新たにリリースしたデータセットであるInfinity-Doc-55Kは、55Kの高忠実な合成スキャンされた文書解析データと専門家がフィルタリングした実世界の文書を組み合わせて、Infinity-Parserと呼ばれるビジョン言語モデルベースのパーサでレイアウトRLをインスタンス化する。
OCR、表、式抽出、読み出し順序検出のための英語と中国語のベンチマークに基づいて、Infinity-Parserは精度と構造的忠実性の両方において新しい最先端のパフォーマンスを実現し、スペシャリストパイプラインと汎用視覚言語モデルを上回っている。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
関連論文リスト
- SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation [5.458935851230595]
テキストおよび視覚的検索・拡張生成(RAG)システムを強化した新しいアプローチであるSCANを提案する。
SCANは、ドキュメントを連続的なコンポーネントをカバーする一貫性のある領域に分割する、粗い粒度のセマンティックアプローチを使用する。
英語と日本語のデータセットを対象とした実験の結果、SCANの適用により、エンドツーエンドのRAG性能が最大9.0%向上し、ビジュアルRAG性能が最大6.4%向上することが示された。
論文 参考訳(メタデータ) (2025-05-20T14:03:24Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - HAND: Hierarchical Attention Network for Multi-Scale Handwritten Document Recognition and Layout Analysis [21.25786478579275]
手書き文書認識は、コンピュータビジョンにおいて最も難しいタスクの1つである。
伝統的に、この問題は手書き文字認識とレイアウト解析という2つの別々のタスクとしてアプローチされてきた。
本稿では,テキスト認識とレイアウト解析を同時に行うための,新しいエンドツーエンドおよびセグメンテーションフリーアーキテクチャであるHANDを紹介する。
論文 参考訳(メタデータ) (2024-12-25T20:36:29Z) - CREPE: Coordinate-Aware End-to-End Document Parser [13.530212337717515]
視覚文書理解のためのOCRフリーシーケンス生成モデル(VDU)を定式化する。
本モデルは,文書画像からテキストを解析するだけでなく,マルチヘッドアーキテクチャに基づくテキストの空間座標も抽出する。
コーディネート・アウェア・エンド・ツー・エンドドキュメンテーション(Coordinate-aware End-to-end Document)と呼ばれる。
CREPEでは,OCRテキスト用の特別なトークンを導入することで,これらの機能を独自に統合する。
論文 参考訳(メタデータ) (2024-05-01T00:30:13Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - End-to-End Information Extraction by Character-Level Embedding and
Multi-Stage Attentional U-Net [0.9137554315375922]
本稿では,文書の2次元キャラクタグリッド埋め込みにおけるエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャを提案する。
このモデルでは,パラメータを40%減らしながら,ベースラインのU-Netアーキテクチャを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2021-06-02T05:42:51Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。