論文の概要: DocPTBench: Benchmarking End-to-End Photographed Document Parsing and Translation
- arxiv url: http://arxiv.org/abs/2511.18434v1
- Date: Sun, 23 Nov 2025 13:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.839404
- Title: DocPTBench: Benchmarking End-to-End Photographed Document Parsing and Translation
- Title(参考訳): DocPTBench: エンドツーエンドの文書解析と翻訳のベンチマーク
- Authors: Yongkun Du, Pinxuan Chen, Xuye Ying, Zhineng Chen,
- Abstract要約: DocPTBenchは、写真文書解析および翻訳用に特別に設計されたベンチマークである。
実験の結果,デジタル化文書から写真化文書への移行により,性能が著しく低下することが確認された。
この大きなパフォーマンスギャップは、現実世界の状況でキャプチャされた文書によって引き起こされるユニークな課題を浮き彫りにする。
- 参考スコア(独自算出の注目度): 18.531174868051558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of Multimodal Large Language Models (MLLMs) has unlocked the potential for end-to-end document parsing and translation. However, prevailing benchmarks such as OmniDocBench and DITrans are dominated by pristine scanned or digital-born documents, and thus fail to adequately represent the intricate challenges of real-world capture conditions, such as geometric distortions and photometric variations. To fill this gap, we introduce DocPTBench, a comprehensive benchmark specifically designed for Photographed Document Parsing and Translation. DocPTBench comprises over 1,300 high-resolution photographed documents from multiple domains, includes eight translation scenarios, and provides meticulously human-verified annotations for both parsing and translation. Our experiments demonstrate that transitioning from digital-born to photographed documents results in a substantial performance decline: popular MLLMs exhibit an average accuracy drop of 18% in end-to-end parsing and 12% in translation, while specialized document parsing models show significant average decrease of 25%. This substantial performance gap underscores the unique challenges posed by documents captured in real-world conditions and reveals the limited robustness of existing models. Dataset and code are available at https://github.com/Topdu/DocPTBench.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の出現は、エンドツーエンドの文書解析と翻訳の可能性を解き放った。
しかし、OmniDocBenchやDITransのような一般的なベンチマークは、スキャンされた文書やデジタル生まれの文書に支配されており、幾何学的歪みや測光変動といった実世界のキャプチャ条件の複雑な課題を適切に表現することができない。
このギャップを埋めるために、フォトドキュメンテーションパーシングと翻訳のために特別に設計された包括的なベンチマークであるDocPTBenchを紹介します。
DocPTBenchは、複数のドメインから1,300以上の高解像度の写真を撮影し、8つの翻訳シナリオを含み、パースと翻訳の両方に人為的に検証されたアノテーションを提供する。
MLLMはエンドツーエンド解析では平均18%,翻訳では12%の精度低下を示し,特殊な文書解析モデルでは25%の精度低下を示した。
この大きなパフォーマンスギャップは、実世界の状況でキャプチャされた文書によって引き起こされるユニークな課題を浮き彫りにして、既存のモデルの限られた堅牢性を明らかにしている。
データセットとコードはhttps://github.com/Topdu/DocPTBench.comで入手できる。
関連論文リスト
- Multi-Stage Field Extraction of Financial Documents with OCR and Compact Vision-Language Models [2.6300820904868263]
金融文書は、規制当局、監査官、金融機関にとって重要な情報源である。
これらの文書は異質であり、同じレポートの中で物語、表、図形、多言語の内容が混在する傾向がある。
本稿では,従来の画像処理モデルとOCR抽出を利用するマルチステージパイプラインと,構造化されたフィールド抽出のためのコンパクトなVLMを提案する。
論文 参考訳(メタデータ) (2025-10-27T06:56:08Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? [64.62909376834601]
本稿では,自然環境における文書理解の評価に特化して設計されたWildDocについて紹介する。
WildDoc上での最先端MLLMの評価は、従来のベンチマークと比べて性能が大幅に低下し、モデルの頑健さが不十分であることを示す。
論文 参考訳(メタデータ) (2025-05-16T09:09:46Z) - MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。
既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。
自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文 参考訳(メタデータ) (2024-10-25T16:00:55Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - Escaping the sentence-level paradigm in machine translation [9.676755606927435]
文書テキスト機械翻訳における多くの作業は存在するが、様々な理由により達成できなかった。
特殊アーキテクチャの作業とは対照的に,標準トランスフォーマーアーキテクチャは十分であることを示す。
本稿では,文書システム間でより識別しやすい,既存のコントラスト指標の生成的変種を提案する。
論文 参考訳(メタデータ) (2023-04-25T16:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。