論文の概要: DOCR-Inspector: Fine-Grained and Automated Evaluation of Document Parsing with VLM
- arxiv url: http://arxiv.org/abs/2512.10619v1
- Date: Thu, 11 Dec 2025 13:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.372147
- Title: DOCR-Inspector: Fine-Grained and Automated Evaluation of Document Parsing with VLM
- Title(参考訳): DOCR検査器:VLMを用いた文書解析の微粒化と自動評価
- Authors: Qintong Zhang, Junyuan Zhang, Zhifei Ren, Linke Ouyang, Zichen Wen, Junbo Niu, Yuan Qu, Bin Wang, Ka-Ho Chow, Conghui He, Wentao Zhang,
- Abstract要約: 文書解析は、構造化されていないPDF画像を半構造化データに変換することを目的としており、多様な領域における情報のデジタル化と活用を容易にする。
一般的なプラクティスは、しばしば標準ベンチマークで最高のパフォーマンスモデルを選択する。
本稿では,文書解析評価をきめ細かな誤り検出と解析として形式化するDOCR-Inspectorを紹介する。
- 参考スコア(独自算出の注目度): 35.910677096654574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document parsing aims to transform unstructured PDF images into semi-structured data, facilitating the digitization and utilization of information in diverse domains. While vision language models (VLMs) have significantly advanced this task, achieving reliable, high-quality parsing in real-world scenarios remains challenging. Common practice often selects the top-performing model on standard benchmarks. However, these benchmarks may carry dataset-specific biases, leading to inconsistent model rankings and limited correlation with real-world performance. Moreover, benchmark metrics typically provide only overall scores, which can obscure distinct error patterns in output. This raises a key challenge: how can we reliably and comprehensively assess document parsing quality in the wild? We address this problem with DOCR-Inspector, which formalizes document parsing assessment as fine-grained error detection and analysis. Leveraging VLM-as-a-Judge, DOCR-Inspector analyzes a document image and its parsed output, identifies all errors, assigns them to one of 28 predefined types, and produces a comprehensive quality assessment. To enable this capability, we construct DOCRcase-200K for training and propose the Chain-of-Checklist reasoning paradigm to enable the hierarchical structure of parsing quality assessment. For empirical validation, we introduce DOCRcaseBench, a set of 882 real-world document parsing cases with manual annotations. On this benchmark, DOCR-Inspector-7B outperforms commercial models like Gemini 2.5 Pro, as well as leading open-source models. Further experiments demonstrate that its quality assessments provide valuable guidance for parsing results refinement, making DOCR-Inspector both a practical evaluator and a driver for advancing document parsing systems at scale. Model and code are released at: https://github.com/ZZZZZQT/DOCR-Inspector.
- Abstract(参考訳): 文書解析は、構造化されていないPDF画像を半構造化データに変換することを目的としており、多様な領域における情報のデジタル化と活用を容易にする。
視覚言語モデル(VLM)はこのタスクをかなり進歩させてきたが、現実のシナリオにおける信頼性の高い高品質な解析を実現することは依然として困難である。
一般的なプラクティスは、しばしば標準ベンチマークで最高のパフォーマンスモデルを選択する。
しかし、これらのベンチマークはデータセット固有のバイアスを持ち、一貫性のないモデルランキングと実際のパフォーマンスとの相関が限定される。
さらに、ベンチマークメトリクスは一般的に全体的なスコアのみを提供し、アウトプットで異なるエラーパターンを区別する可能性がある。
ドキュメント解析の品質をいかに確実かつ包括的に評価できるか?
文書解析評価をきめ細かな誤り検出と解析として形式化するDOCR-Inspectorを用いてこの問題に対処する。
VLM-as-a-Judgeを活用して、DOCR-Inspectorは文書画像とその解析された出力を分析し、すべてのエラーを特定し、28の事前定義された型のうちの1つに割り当て、包括的な品質評価を生成する。
この能力を実現するために,我々は,学習用DOCRcase-200Kを構築し,解析品質評価の階層構造を実現するために,Chain-of-Checklist推論パラダイムを提案する。
実証検証のために,実世界の882件の文書を手動で解析するDOCRcaseBenchを紹介した。
このベンチマークでは、DOCR-Inspector-7Bは、Gemini 2.5 Proのような商用モデル、および主要なオープンソースモデルを上回っている。
さらなる実験により、その品質評価が解析結果の洗練に有用なガイダンスを提供することが示され、DOCR-Inspectorは実用的評価と文書解析システムを大規模に進めるためのドライバとなる。
モデルとコードは、https://github.com/ZZZZQT/DOCR-Inspector.comでリリースされる。
関連論文リスト
- Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
スキャンされた画像から文書を解析することは、テキストの段落、図形、公式、表などの複雑な要素が絡み合っているため、依然として重要な課題である。
既存の教師付き微調整手法は、様々なドキュメントタイプにまたがる一般化に苦慮し、特にアウト・オブ・ディストリビューションデータにおいて、パフォーマンスが低下する。
本稿では、正規化編集距離カウント精度と読み出し順序保存を統合した複合報酬によるレイアウト理解を最適化する強化学習フレームワークであるLayoutRLを紹介する。
Infinity-Benchは、幅広いドキュメントタイプ、言語、構造的複雑さに対して、常に最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-10-17T06:26:59Z) - ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。
パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文 参考訳(メタデータ) (2024-12-10T16:05:56Z) - UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis [7.952225508086861]
学術文献やファイナンスによる質問応答では、データはHTMLやPDF形式の生のテキストや表によく見られる。
2,965の現実世界の文書と29,590のエキスパート注釈付きQ&AペアからなるベンチマークスイートであるUnstructured Document Analysis (UDA)を導入する。
論文 参考訳(メタデータ) (2024-06-21T14:29:39Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。