論文の概要: CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy
- arxiv url: http://arxiv.org/abs/2412.02210v2
- Date: Thu, 05 Dec 2024 13:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 11:19:28.034879
- Title: CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy
- Title(参考訳): CC-OCR:リテラシーにおける大規模マルチモーダルモデル評価のための総合的かつ混在するOCRベンチマーク
- Authors: Zhibo Yang, Jun Tang, Zhaohai Li, Pengfei Wang, Jianqiang Wan, Humen Zhong, Xuejing Liu, Mingkun Yang, Peng Wang, Yuliang Liu, LianWen Jin, Xiang Bai, Shuai Bai, Junyang Lin,
- Abstract要約: CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
- 参考スコア(独自算出の注目度): 88.10767662631851
- License:
- Abstract: Large Multimodal Models (LMMs) have demonstrated impressive performance on recognizing document images with natural language instructions. However, it remains unclear to what extent capabilities in literacy with rich structure and fine-grained visual challenges. The current landscape lacks a comprehensive benchmark to effectively measure the literate capabilities of LMMs. Existing benchmarks are often limited by narrow scenarios and specified tasks. To this end, we introduce CC-OCR, a comprehensive benchmark that possess a diverse range of scenarios, tasks, and challenges. CC-OCR comprises four OCR-centric tracks: multi-scene text reading, multilingual text reading, document parsing, and key information extraction. It includes 39 subsets with 7,058 full annotated images, of which 41% are sourced from real applications, being released for the first time. Furthermore, we evaluate nine prominent LMMs and reveal both the strengths and weaknesses of these models, particularly in text grounding, multi-orientation, and hallucination of repetition. CC-OCR aims to comprehensively evaluate the capabilities of LMMs on OCR-centered tasks, driving advancement in LMMs.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は, 自然言語による文書画像認識において, 顕著な性能を示した。
しかし、リッチな構造ときめ細かい視覚的課題を持つリテラシーの能力の程度は、まだ不明である。
現在のランドスケープには、LMMの文字化能力を効果的に測定する包括的なベンチマークが欠けている。
既存のベンチマークは狭いシナリオや特定のタスクによって制限されることが多い。
この目的のために,多様なシナリオ,タスク,課題を有する包括的なベンチマークであるCC-OCRを紹介した。
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
さらに,9つの顕著なLMMを評価し,これらのモデルの長所と短所を明らかにする。
CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
関連論文リスト
- Ocean-OCR: Towards General OCR Application via a Vision-Language Model [6.70908296002235]
textbfOcean-OCRは3B MLLMで、様々なOCRシナリオにおける最先端性能と、一般的なタスクにおける同等の理解能力を持つ。
我々は、オープンソースのOCRベンチマークや様々なOCRシナリオにおける包括的な実験を通じて、Ocean-OCRの優位性を実証する。
論文 参考訳(メタデータ) (2025-01-26T15:20:39Z) - OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。
その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文 参考訳(メタデータ) (2024-12-31T07:32:35Z) - Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。
既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。
自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文 参考訳(メタデータ) (2024-10-25T16:00:55Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and
In-depth Evaluation [33.66939971907121]
評価の結果,GPT-4Vはラテン内容の認識や理解に優れていたが,多言語シナリオや複雑なタスクに苦慮していることが明らかとなった。
一般に、多様なOCRタスクを扱う汎用性にもかかわらず、GPT-4Vは既存の最先端のOCRモデルより優れているわけではない。
論文 参考訳(メタデータ) (2023-10-25T17:38:55Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。