論文の概要: MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2603.28130v1
- Date: Mon, 30 Mar 2026 07:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.287189
- Title: MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios
- Title(参考訳): MDPBench: 実世界のシナリオにおける多言語文書解析のためのベンチマーク
- Authors: Zhang Li, Zhibo Lin, Qiang Liu, Ziyang Zhang, Shuo Zhang, Zidun Guo, Jiajun Song, Jiarui Zhang, Xiang Bai, Yuliang Liu,
- Abstract要約: 我々は,多言語デジタルおよび写真文書解析のための最初のベンチマークであるMultilingual Document Parsing Benchmarkを紹介する。
MDPBenchは17言語にまたがる3,400のドキュメントイメージ、多様なスクリプト、さまざまな写真条件で構成されている。
- 参考スコア(独自算出の注目度): 72.8160644291677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Multilingual Document Parsing Benchmark, the first benchmark for multilingual digital and photographed document parsing. Document parsing has made remarkable strides, yet almost exclusively on clean, digital, well-formatted pages in a handful of dominant languages. No systematic benchmark exists to evaluate how models perform on digital and photographed documents across diverse scripts and low-resource languages. MDPBench comprises 3,400 document images spanning 17 languages, diverse scripts, and varied photographic conditions, with high-quality annotations produced through a rigorous pipeline of expert model labeling, manual correction, and human verification. To ensure fair comparison and prevent data leakage, we maintain separate public and private evaluation splits. Our comprehensive evaluation of both open-source and closed-source models uncovers a striking finding: while closed-source models (notably Gemini3-Pro) prove relatively robust, open-source alternatives suffer dramatic performance collapse, particularly on non-Latin scripts and real-world photographed documents, with an average drop of 17.8% on photographed documents and 14.0% on non-Latin scripts. These results reveal significant performance imbalances across languages and conditions, and point to concrete directions for building more inclusive, deployment-ready parsing systems. Source available at https://github.com/Yuliang-Liu/MultimodalOCR.
- Abstract(参考訳): 我々は,多言語デジタルおよび写真文書解析のための最初のベンチマークであるMultilingual Document Parsing Benchmarkを紹介する。
文書解析は目覚ましい進歩を遂げているが、ほとんどは、少数の支配的な言語における、クリーンでデジタルで、十分に整形されたページに焦点を当てている。
様々なスクリプトと低リソース言語にわたるデジタルおよび写真ドキュメント上でモデルがどのように機能するかを評価するための体系的なベンチマークは存在しない。
MDPBenchは、17の言語にまたがる3,400のドキュメントイメージ、多様なスクリプト、さまざまな写真条件で構成されており、厳密な専門家モデルのラベル付け、手動の修正、人間による検証などを通じて高品質なアノテーションが作成されている。
公正な比較を確保し、データの漏洩を防止するため、我々は個別のパブリックとプライベートの評価分割を維持する。
クローズドソースモデル(特にGemini3-Pro)は比較的堅牢であるが、特に非ラテン語のスクリプトや実世界の写真ドキュメントでは、パフォーマンスが劇的に低下し、写真化されたドキュメントでは平均17.8%が、非ラテン語のスクリプトでは14.0%が減少している。
これらの結果から、言語と条件間での大幅なパフォーマンスの不均衡が明らかとなり、より包括的でデプロイメント対応の構文解析システムを構築するための具体的な方向性が示唆された。
ソースコードはhttps://github.com/Yuliang-Liu/MultimodalOCRで入手できる。
関連論文リスト
- Dolphin-v2: Universal Document Parsing via Scalable Anchor Prompting [46.102790941920865]
2段階の文書画像解析モデルであるDolphin-v2を提案する。
第1段階では、Dolphin-v2 はレイアウト解析とともに文書型分類(デジタル生まれか写真か)を共同で行う。
第2段階では、撮影された文書は、幾何学的歪みを処理するために全ページとして一様に解析されるのに対し、デジタル生まれの文書は、検出されたレイアウトアンカーによって案内される要素的並列解析を行う。
論文 参考訳(メタデータ) (2026-02-05T07:09:57Z) - VDE Bench: Evaluating The Capability of Image Editing Models to Modify Visual Documents [45.37806172594631]
マルチモーダル画像編集モデルは、ユーザがフレキシブルでインタラクティブな方法で視覚コンテンツを操作できるように、大幅に進歩した。
ビジュアル文書画像編集は、オリジナルのテキストスタイルと背景コンテキストを保存しながら、画像内のテキスト内容を変更することを含む。
AnyText、GlyphControl、TextCtrlといった既存のアプローチは主に、比較的少ないテキストレイアウトを持つ英語のシナリオとドキュメントに焦点を当てている。
論文 参考訳(メタデータ) (2026-01-27T16:51:05Z) - DocPTBench: Benchmarking End-to-End Photographed Document Parsing and Translation [18.531174868051558]
DocPTBenchは、写真文書解析および翻訳用に特別に設計されたベンチマークである。
実験の結果,デジタル化文書から写真化文書への移行により,性能が著しく低下することが確認された。
この大きなパフォーマンスギャップは、現実世界の状況でキャプチャされた文書によって引き起こされるユニークな課題を浮き彫りにする。
論文 参考訳(メタデータ) (2025-11-23T13:02:11Z) - WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? [64.62909376834601]
本稿では,自然環境における文書理解の評価に特化して設計されたWildDocについて紹介する。
WildDoc上での最先端MLLMの評価は、従来のベンチマークと比べて性能が大幅に低下し、モデルの頑健さが不十分であることを示す。
論文 参考訳(メタデータ) (2025-05-16T09:09:46Z) - MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。
既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。
自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文 参考訳(メタデータ) (2024-10-25T16:00:55Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。