論文の概要: Multimodal OCR: Parse Anything from Documents
- arxiv url: http://arxiv.org/abs/2603.13032v1
- Date: Fri, 13 Mar 2026 14:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.128182
- Title: Multimodal OCR: Parse Anything from Documents
- Title(参考訳): マルチモーダルOCR:ドキュメントからのParseのあらゆるもの
- Authors: Handong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai,
- Abstract要約: dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。
テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。
不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
- 参考スコア(独自算出の注目度): 72.18225200292527
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Multimodal OCR (MOCR), a document parsing paradigm that jointly parses text and graphics into unified textual representations. Unlike conventional OCR systems that focus on text recognition and leave graphical regions as cropped pixels, our method, termed dots.mocr, treats visual elements such as charts, diagrams, tables, and icons as first-class parsing targets, enabling systems to parse documents while preserving semantic relationships across elements. It offers several advantages: (1) it reconstructs both text and graphics as structured outputs, enabling more faithful document reconstruction; (2) it supports end-to-end training over heterogeneous document elements, allowing models to exploit semantic relations between textual and visual components; and (3) it converts previously discarded graphics into reusable code-level supervision, unlocking multimodal supervision embedded in existing documents. To make this paradigm practical at scale, we build a comprehensive data engine from PDFs, rendered webpages, and native SVG assets, and train a compact 3B-parameter model through staged pretraining and supervised fine-tuning. We evaluate dots.mocr from two perspectives: document parsing and structured graphics parsing. On document parsing benchmarks, it ranks second only to Gemini 3 Pro on our OCR Arena Elo leaderboard, surpasses existing open-source document parsing systems, and sets a new state of the art of 83.9 on olmOCR Bench. On structured graphics parsing, dots.mocr achieves higher reconstruction quality than Gemini 3 Pro across image-to-SVG benchmarks, demonstrating strong performance on charts, UI layouts, scientific figures, and chemical diagrams. These results show a scalable path toward building large-scale image-to-code corpora for multimodal pretraining. Code and models are publicly available at https://github.com/rednote-hilab/dots.mocr.
- Abstract(参考訳): テキストとグラフィックを統一したテキスト表現に解析する文書解析パラダイムであるMultimodal OCR(MOCR)を提案する。
テキスト認識に焦点を絞った従来のOCRシステムとは異なり,本手法はドット(dots.mocr)と呼ばれ,図表,図表,アイコンなどの視覚的要素を第一級解析対象として扱い,要素間の意味的関係を保ちながら文書を解析することができる。
1) 構造化された出力としてテキストとグラフィックの両方を再構築し、より忠実な文書再構成を可能にし、(2) 不均一な文書要素に対するエンドツーエンドのトレーニングをサポートし、モデルがテキストとビジュアルコンポーネント間のセマンティックな関係を活用できるようにする。
このパラダイムを大規模に実践するために、PDF、レンダリングされたWebページ、ネイティブSVGアセットから包括的なデータエンジンを構築し、ステージドプレトレーニングと教師付き微調整を通じてコンパクトな3Bパラメータモデルを訓練する。
我々は文書解析と構造化グラフィック解析という2つの観点からdots.mocrを評価した。
ドキュメントパースベンチマークでは、OCR Arena EloのリーダーボードでGemini 3 Proに次いで第2位で、既存のオープンソースドキュメントパースシステムを超え、olmOCR Benchで83.9の新しい最先端を設定します。
構造化グラフィック解析において、dots.mocrは画像とSVGのベンチマークでGemini 3 Proよりも高い再現性を実現し、チャート、UIレイアウト、科学図、化学図に強いパフォーマンスを示す。
これらの結果は,マルチモーダル事前学習のための大規模画像・コードコーパスの構築に向けたスケーラブルな経路を示す。
コードとモデルはhttps://github.com/rednote-hilab/dots.mocr.comで公開されている。
関連論文リスト
- NovaLAD: A Fast, CPU-Optimized Document Extraction Pipeline for Generative AI and Data Intelligence [0.0]
NovaLADは、構造化されていない文書を構造化されたテキストとレイアウト対応の表現に変換する包括的な文書解析システムである。
要素検出とレイアウト検出という2つの同時YOLOオブジェクト検出モデルとルールベースのグループ化とオプションの視覚言語拡張を統合している。
本稿では,GPUを必要とせずに,データの抽出方法,アーキテクチャの動作方法,NovaLADの正確性と使用性を両立させる方法について説明する。
論文 参考訳(メタデータ) (2026-02-23T06:11:34Z) - PARL: Position-Aware Relation Learning Network for Document Layout Analysis [23.497081928689525]
効果的なレイアウト解析は,テキストと視覚の融合ではなく,文書の本質的な視覚構造を深く理解することに依存する。
位置感度とリレーショナル構造を用いてレイアウトをモデル化する新しいOCRフリー・ビジョンオンリーのフレームワークを提案する。
実験により、PARL (65M) は大規模マルチモーダルモデルより約4倍少ないパラメータを用いて非常に効率的であることが示されている。
論文 参考訳(メタデータ) (2026-01-12T15:05:35Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents [18.080447065002392]
本稿では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制するためのDocumentCLIPを提案する。
我々のモデルは、言語的にも視覚的にもリッチなコンテンツを含む、ニュース記事、雑誌、製品記述などの実世界のマルチモーダル文書理解にとって有益である。
論文 参考訳(メタデータ) (2023-06-09T23:51:11Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。