論文の概要: CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing
- arxiv url: http://arxiv.org/abs/2605.03903v1
- Date: Tue, 05 May 2026 15:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.017951
- Title: CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing
- Title(参考訳): CC-OCR V2:リアルタイム文書処理におけるリテラシーのための大規模マルチモーダルモデルのベンチマーク
- Authors: Zhipeng Xu, Junhao Ji, Zulong Chen, Zhenghao Liu, Qing Liu, Chunyi Peng, Zubao Qin, Ze Xu, Jianqiang Wan, Jun Tang, Zhibo Yang, Shuai Bai, Dayiheng Liu,
- Abstract要約: CC-OCR V2は、現実世界の文書処理に適した総合的で挑戦的なOCRベンチマークである。
CC-OCR V2は、実際のエンタープライズ文書処理タスクに重点を置いており、以前のベンチマークでは重要ではありませんでしたが、ハードケースとコーナーケースを取り入れています。
14の先進的なLMMの実験により、現在のモデルは現実世界のアプリケーション要件に満たないことが明らかになった。
- 参考スコア(独自算出の注目度): 33.84177435117706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have recently shown strong performance on Optical Character Recognition (OCR) tasks, demonstrating their promising capability in document literacy. However, their effectiveness in real-world applications remains underexplored, as existing benchmarks adopt task scopes misaligned with practical applications and assume homogeneous acquisition conditions. To address this gap, we introduce CC-OCR V2, a comprehensive and challenging OCR benchmark tailored to real-world document processing. CC-OCR V2 focuses on practical enterprise document processing tasks and incorporates hard and corner cases that are critical yet underrepresented in prior benchmarks, covering 5 major OCR-centric tracks: text recognition, document parsing, document grounding, key information extraction, and document question answering, comprising 7,093 high-difficulty samples. Extensive experiments on 14 advanced LMMs reveal that current models fall short of real-world application requirements. Even state-of-the-art LMMs exhibit substantial performance degradation across diverse tasks and scenarios. These findings reveal a significant gap between performance on current benchmarks and effectiveness in real-world applications. We release the full dataset and evaluation toolkit at https://github.com/eioss/CC-OCR-V2.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は近年,光学文字認識(OCR)タスクにおいて高い性能を示し,文書リテラシーに期待できる能力を示した。
しかし、既存のベンチマークでは、実際のアプリケーションとミスマッチしたタスクスコープを採用し、均質な取得条件を仮定しているため、実世界のアプリケーションにおけるそれらの有効性は未解明のままである。
このギャップに対処するため,実世界の文書処理に適した総合的かつ挑戦的なOCRベンチマークであるCC-OCR V2を導入する。
CC-OCR V2は、実際のエンタープライズ文書処理タスクに重点を置いており、テキスト認識、文書解析、文書グラウンド、キー情報抽出、文書質問応答の5つの主要なOCR中心のトラックをカバーしている。
14の先進的なLMMに関する大規模な実験により、現在のモデルは現実世界のアプリケーション要件に満たないことが明らかになった。
最先端のLMMでさえ、さまざまなタスクやシナリオで大幅にパフォーマンスが低下します。
これらの結果は、現在のベンチマークのパフォーマンスと実世界のアプリケーションにおける有効性の間に大きなギャップがあることを示唆している。
完全なデータセットと評価ツールキットはhttps://github.com/eioss/CC-OCR-V2で公開しています。
関連論文リスト
- UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents [65.14244917622881]
近年の大規模マルチモーダルモデルでは,文書画像から直接,エンドツーエンドのKIEを実行する可能性が高まっている。
我々は,LMMのKIE能力を厳格に評価するベンチマークであるUNIKIE-BENCHを紹介する。
15の最先端のLMMの実験では、多様なスキーマ定義、ロングテールキーフィールド、複雑なレイアウトの下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-03T12:04:56Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects [23.9752442213364]
CodeFuse-CR-Benchは、リポジトリレベルのCR評価のための、最初の包括性対応ベンチマークである。
CodeFuse-CR-Benchは、9つのプルリクエスト(PR)問題ドメインをカバーする70のPythonプロジェクトから601の高品質なインスタンスで構成されている。
本稿では,この包括的CR課題に対して,最先端の大規模言語モデル(LLM)の大規模評価を行う。
論文 参考訳(メタデータ) (2025-09-18T11:24:09Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。