論文の概要: MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm
- arxiv url: http://arxiv.org/abs/2506.05218v1
- Date: Thu, 05 Jun 2025 16:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.826212
- Title: MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm
- Title(参考訳): MonkeyOCR: 構造認識型トリプルトパラダイムによる文書解析
- Authors: Zhang Li, Yuliang Liu, Qiang Liu, Zhiyin Ma, Ziyang Zhang, Shuo Zhang, Zidun Guo, Jiarui Zhang, Xinyu Wang, Xiang Bai,
- Abstract要約: MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
- 参考スコア(独自算出の注目度): 60.14048367611333
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce MonkeyOCR, a vision-language model for document parsing that advances the state of the art by leveraging a Structure-Recognition-Relation (SRR) triplet paradigm. This design simplifies what would otherwise be a complex multi-tool pipeline (as in MinerU's modular approach) and avoids the inefficiencies of processing full pages with giant end-to-end models (e.g., large multimodal LLMs like Qwen-VL). In SRR, document parsing is abstracted into three fundamental questions - "Where is it?" (structure), "What is it?" (recognition), and "How is it organized?" (relation) - corresponding to layout analysis, content identification, and logical ordering. This focused decomposition balances accuracy and speed: it enables efficient, scalable processing without sacrificing precision. To train and evaluate this approach, we introduce the MonkeyDoc (the most comprehensive document parsing dataset to date), with 3.9 million instances spanning over ten document types in both Chinese and English. Experiments show that MonkeyOCR outperforms MinerU by an average of 5.1%, with particularly notable improvements on challenging content such as formulas (+15.0%) and tables (+8.6%). Remarkably, our 3B-parameter model surpasses much larger and top-performing models, including Qwen2.5-VL (72B) and Gemini 2.5 Pro, achieving state-of-the-art average performance on English document parsing tasks. In addition, MonkeyOCR processes multi-page documents significantly faster (0.84 pages per second compared to 0.65 for MinerU and 0.12 for Qwen2.5-VL-7B). The 3B model can be efficiently deployed for inference on a single NVIDIA 3090 GPU. Code and models will be released at https://github.com/Yuliang-Liu/MonkeyOCR.
- Abstract(参考訳): 本稿では、SRR(Structure-Recognition-Relation)三重項パラダイムを活用することにより、最先端技術を推進する文書解析のための視覚言語モデルであるMonkeyOCRを紹介する。
この設計は、複雑なマルチツールパイプライン(MinerUのモジュラーアプローチのように)を単純化し、巨大なエンドツーエンドモデル(例えば、Qwen-VLのような大規模なマルチモーダルLLM)でフルページを処理する非効率を回避する。
SRRでは、文書解析は、レイアウト分析、コンテンツ識別、論理的順序付けに対応する3つの基本的疑問(構造)、構造(構造)、構造(構造)、構造(構造)、構造(構造)、構造(構造)の3つに抽象化される。
この集中分解は精度とスピードのバランスをとり、精度を犠牲にすることなく効率的でスケーラブルな処理を可能にする。
このアプローチをトレーニングし、評価するために、中国と英語の10種類のドキュメントタイプにまたがる390万のインスタンスで、MonkeyDoc(これまでで最も包括的なドキュメント解析データセット)を導入しました。
実験の結果、MonkeyOCRはMinerUを平均5.1%上回り、特に公式 (+15.0%) やテーブル (+8.6%) などの挑戦的なコンテンツに顕著な改善が見られた。
注目すべきは、我々の3Bパラメータモデルは、Qwen2.5-VL (72B) やGemini 2.5 Proなど、はるかに大きく、最高のパフォーマンスのモデルを超え、英語の文書解析タスクにおける最先端の平均パフォーマンスを実現していることです。
さらに、MonkeyOCRはマルチページ文書の処理が大幅に高速化された(MinerUは0.65ページ、Qwen2.5-VL-7Bは0.12ページ)。
3Bモデルは、単一のNVIDIA 3090 GPUで推論するために効率的にデプロイできる。
コードとモデルはhttps://github.com/Yuliang-Liu/MonkeyOCRでリリースされる。
関連論文リスト
- Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer [5.585222292493927]
提案するUnion-of-Experts(UoE)は,変圧器を等価な専門家グループに分解し,入力データとエキスパートを選択的にルーティングする。
実験により、UoEモデルはフルアテンション、最先端のMoE、効率的なトランスフォーマーを上回ることが示されている。
論文 参考訳(メタデータ) (2025-03-04T11:01:25Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT [48.35407228760352]
検索パイプラインは、文書が長い(例えば10Kトークン以上)ドメインや、関連する文書を識別する場合は、テキスト全体にわたって情報を合成する必要がある。
これらのドメインに適した長文検索エンコーダを開発する。
LoCoV1は,チャンキングが不可能か有効でない場合の長文検索のための新しい12タスクベンチマークである。
次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。
論文 参考訳(メタデータ) (2024-02-12T06:43:52Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - VAULT: VAriable Unified Long Text Representation for Machine Reading
Comprehension [31.639069657951747]
機械読取の既存のモデルは、段落表現と分類で長いテキストをモデル化するために複雑なモデルアーキテクチャを必要とする。
長文入力からの文脈化表現に基づく,MDC の軽量かつ並列効率なパラメタ表現 VAULT を提案する。
論文 参考訳(メタデータ) (2021-05-07T13:03:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。