論文の概要: MosaicDoc: A Large-Scale Bilingual Benchmark for Visually Rich Document Understanding
- arxiv url: http://arxiv.org/abs/2511.09919v1
- Date: Fri, 14 Nov 2025 01:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.57678
- Title: MosaicDoc: A Large-Scale Bilingual Benchmark for Visually Rich Document Understanding
- Title(参考訳): MosaicDoc:視覚的にリッチなドキュメント理解のための大規模バイリンガルベンチマーク
- Authors: Ketong Chen, Yuhao Chen, Yang Xue,
- Abstract要約: MosaicDocは、ビジュアルリッチドキュメント理解(VRDU)の境界を押し上げるために設計された、大規模なバイリンガル(中国語と英語)リソースである。
72Kイメージと600KのQAペアを持つMosaicDocは、この分野における決定的なベンチマークとして機能する。
このベンチマークにおける最先端モデルの評価は、実際の文書の複雑さを扱う際の現在の限界を明らかにしている。
- 参考スコア(独自算出の注目度): 7.650139800950797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid progress of Vision-Language Models (VLMs), their capabilities are inadequately assessed by existing benchmarks, which are predominantly English-centric, feature simplistic layouts, and support limited tasks. Consequently, they fail to evaluate model performance for Visually Rich Document Understanding (VRDU), a critical challenge involving complex layouts and dense text. To address this, we introduce DocWeaver, a novel multi-agent pipeline that leverages Large Language Models to automatically generate a new benchmark. The result is MosaicDoc, a large-scale, bilingual (Chinese and English) resource designed to push the boundaries of VRDU. Sourced from newspapers and magazines, MosaicDoc features diverse and complex layouts (including multi-column and non-Manhattan), rich stylistic variety from 196 publishers, and comprehensive multi-task annotations (OCR, VQA, reading order, and localization). With 72K images and over 600K QA pairs, MosaicDoc serves as a definitive benchmark for the field. Our extensive evaluation of state-of-the-art models on this benchmark reveals their current limitations in handling real-world document complexity and charts a clear path for future research.
- Abstract(参考訳): Vision-Language Models (VLM) の急速な進歩にもかかわらず、それらの能力は既存のベンチマークによって不適切に評価されている。
結果として、複雑なレイアウトと高密度テキストを含む重要な課題である、Visually Rich Document Understanding (VRDU)のモデルパフォーマンスの評価に失敗している。
これを解決するためにDocWeaverを紹介します。これは、Large Language Modelsを活用して、新しいベンチマークを自動的に生成する、新しいマルチエージェントパイプラインです。
その結果、MosaicDocは、VRDUの境界を押し上げるために設計された、大規模なバイリンガル(中国語と英語)のリソースとなった。
新聞や雑誌から引用されたMosaicDocは、多彩で複雑なレイアウト(マルチカラムと非マンハッタンを含む)、196出版社からのリッチなスタイリスティックなバリエーション、包括的なマルチタスクアノテーション(OCR、VQA、読み順、ローカライゼーション)を備えている。
72Kイメージと600KのQAペアを持つMosaicDocは、この分野における決定的なベンチマークとして機能する。
このベンチマークの最先端モデルに対する広範な評価は、実際の文書の複雑さを扱う際の現在の限界を明らかにし、将来の研究への明確な道筋を図示している。
関連論文リスト
- SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents [10.146296597660598]
既存のビジュアル文書検索(VDR)のベンチマークは、非英語言語と公式出版物の構造的複雑さを概ね見落としている。
SDS KoPub VDRは,韓国の公文書の検索と理解のための,最初の大規模公開ベンチマークである。
ベンチマークは361の現実世界のドキュメント上に構築されており、KOGL Type 1ライセンス下の256ファイル、公式の法的ポータルからの105ファイルが含まれている。
論文 参考訳(メタデータ) (2025-11-07T01:16:07Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - HW-MLVQA: Elucidating Multilingual Handwritten Document Understanding with a Comprehensive VQA Benchmark [31.753044906301664]
本稿では,HW-MLVQAという前衛的なVQAベンチマークについて述べる。
テキスト、画像、統合された画像とテキストのモダリティの3つの異なるモードにまたがる堅牢なベンチマーク評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-21T14:16:44Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion [9.198920557312865]
本稿では,エンドツーエンドの文書変換を目的とした超コンパクトな視覚言語モデルであるSmolDoclingを紹介する。
我々のモデルは、新しいユニバーサルマークアップフォーマットであるDocTagsを生成することによって、ページ全体を包括的に処理する。
SmohDoclingは、コードリスト、テーブル、方程式、チャート、リストなどのドキュメント機能を正しく再現する上で、堅牢なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-14T16:44:14Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - GlobalDoc: A Cross-Modal Vision-Language Framework for Real-World Document Image Retrieval and Classification [8.880856137902947]
我々は、自己教師型で事前訓練されたクロスモーダルトランスフォーマーベースのアーキテクチャであるGlobalDocを紹介する。
GlobalDocは、言語と視覚表現を統合することによって、よりリッチなセマンティックな概念の学習を改善する。
適切な評価のために,Few-Shot Document Image Classification (DIC)とContent-based Document Image Retrieval (DIR)の2つの新しい文書レベル下流VDUタスクを提案する。
論文 参考訳(メタデータ) (2023-09-11T18:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。