論文の概要: MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns
- arxiv url: http://arxiv.org/abs/2511.10390v2
- Date: Sun, 16 Nov 2025 17:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.500011
- Title: MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns
- Title(参考訳): MonkeyOCR v1.5テクニカルレポート - 複雑なパターンに対するロバストなドキュメント解析のアンロック
- Authors: Jiarui Zhang, Yuliang Liu, Zijun Wu, Guosheng Pang, Zhili Ye, Yupei Zhong, Junteng Ma, Tao Wei, Haiyang Xu, Weikai Chen, Zeen Wang, Qiangjun Ji, Fanxi Zhou, Qi Zhang, Yuanrui Hu, Jiahao Liu, Zhang Li, Ziyang Zhang, Qiang Liu, Xiang Bai,
- Abstract要約: MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
- 参考スコア(独自算出の注目度): 80.05126590825121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document parsing is a core task in document intelligence, supporting applications such as information extraction, retrieval-augmented generation, and automated document analysis. However, real-world documents often feature complex layouts with multi-level tables, embedded images or formulas, and cross-page structures, which remain challenging for existing OCR systems. We introduce MonkeyOCR v1.5, a unified vision-language framework that enhances both layout understanding and content recognition through a two-stage pipeline. The first stage employs a large multimodal model to jointly predict layout and reading order, leveraging visual information to ensure sequential consistency. The second stage performs localized recognition of text, formulas, and tables within detected regions, maintaining high visual fidelity while reducing error propagation. To address complex table structures, we propose a visual consistency-based reinforcement learning scheme that evaluates recognition quality via render-and-compare alignment, improving structural accuracy without manual annotations. Additionally, two specialized modules, Image-Decoupled Table Parsing and Type-Guided Table Merging, are introduced to enable reliable parsing of tables containing embedded images and reconstruction of tables crossing pages or columns. Comprehensive experiments on OmniDocBench v1.5 demonstrate that MonkeyOCR v1.5 achieves state-of-the-art performance, outperforming PPOCR-VL and MinerU 2.5 while showing exceptional robustness in visually complex document scenarios. A trial link can be found at https://github.com/Yuliang-Liu/MonkeyOCR .
- Abstract(参考訳): 文書解析はドキュメントインテリジェンスにおける中核的なタスクであり、情報抽出、検索強化生成、自動文書解析などのアプリケーションをサポートする。
しかし、実世界の文書は、しばしば、マルチレベルテーブル、埋め込み画像または公式、および既存のOCRシステムでは困難なクロスページ構造を持つ複雑なレイアウトを特徴としている。
MonkeyOCR v1.5は、2段階のパイプラインを通してレイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
第1段階では、レイアウトと読み込み順序を共同で予測するために大規模なマルチモーダルモデルを採用し、視覚情報を活用してシーケンシャルな一貫性を確保する。
第2段階は、検出された領域内のテキスト、公式、テーブルの局所的認識を行い、エラー伝搬を低減しつつ高い視覚的忠実性を維持する。
複雑なテーブル構造に対処するために,レンダリング・アンド・コンパレントによる認識品質の評価を行い,手動のアノテーションを使わずに構造精度を向上させる視覚的一貫性に基づく強化学習手法を提案する。
さらに、組込み画像を含むテーブルの信頼性の高い解析と、テーブル横断ページや列の再構築を可能にするために、2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingが導入されている。
OmniDocBench v1.5に関する総合的な実験では、MonkeyOCR v1.5が最先端のパフォーマンスを実現し、PPOCR-VLとMinerU 2.5を上回りながら、視覚的に複雑なドキュメントシナリオにおいて極めて堅牢性を示している。
トライアルリンクはhttps://github.com/Yuliang-Liu/MonkeyOCR にある。
関連論文リスト
- FireRed-OCR Technical Report [30.019999826760003]
本稿では,汎用VLMを専門家を解析するピクセル精度構造文書に変換するフレームワークFireRed-OCRを紹介する。
高品質な構造化データの不足に対処するため,Geometry + Semantics's Data Factoryを構築した。
本稿では,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-03-02T13:19:23Z) - MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding [35.429403152845836]
Youtu-Parsingは、高性能コンテンツ抽出のために設計された、効率的で汎用的な文書解析モデルである。
このモデルは稀な文字、多言語テキスト、手書きコンテンツを扱う際に強い堅牢性を示す。
Youtu-ParsingはOmniDocBenchおよびolmOCR-benchベンチマーク上での最先端(SOTA)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-28T09:37:13Z) - PARL: Position-Aware Relation Learning Network for Document Layout Analysis [23.497081928689525]
効果的なレイアウト解析は,テキストと視覚の融合ではなく,文書の本質的な視覚構造を深く理解することに依存する。
位置感度とリレーショナル構造を用いてレイアウトをモデル化する新しいOCRフリー・ビジョンオンリーのフレームワークを提案する。
実験により、PARL (65M) は大規模マルチモーダルモデルより約4倍少ないパラメータを用いて非常に効率的であることが示されている。
論文 参考訳(メタデータ) (2026-01-12T15:05:35Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding [0.0]
Retrieval-Augmented Generation (RAG) システムは情報検索と質問応答に革命をもたらした。
従来のテキストベースのチャンキング手法は、複雑なドキュメント構造、マルチページテーブル、埋め込みフィギュア、ページ境界を越えたコンテキスト依存に苦労する。
本稿では,Large Multimodal Models(LMM)を利用してPDF文書をバッチで処理する,新しいマルチモーダル文書チャンキング手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T05:11:43Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。
我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-19T16:48:40Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。