Fugu-MT 論文翻訳(概要): CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

論文の概要: CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

arxiv url: http://arxiv.org/abs/2412.02210v1
Date: Tue, 03 Dec 2024 07:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.902574
Title: CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy
Title（参考訳）: CC-OCR:リテラシーにおける大規模マルチモーダルモデル評価のための総合的かつ混在するOCRベンチマーク
Authors: Zhibo Yang, Jun Tang, Zhaohai Li, Pengfei Wang, Jianqiang Wan, Humen Zhong, Xuejing Liu, Mingkun Yang, Peng Wang, Yuliang Liu, LianWen Jin, Xiang Bai, Shuai Bai, Junyang Lin,
Abstract要約: CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
参考スコア（独自算出の注目度）: 88.10767662631851
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Multimodal Models (LMMs) have demonstrated impressive performance on recognizing document images with natural language instructions. However, it remains unclear to what extent capabilities in literacy with rich structure and fine-grained visual challenges. The current landscape lacks a comprehensive benchmark to effectively measure the literate capabilities of LMMs. Existing benchmarks are often limited by narrow scenarios and specified tasks. To this end, we introduce CC-OCR, a comprehensive benchmark that possess a diverse range of scenarios, tasks, and challenges. CC-OCR comprises four OCR-centric tracks: multi-scene text reading, multilingual text reading, document parsing, and key information extraction. It includes 39 subsets with 7,058 full annotated images, of which 41% are sourced from real applications, being released for the first time. Furthermore, we evaluate nine prominent LMMs and reveal both the strengths and weaknesses of these models, particularly in text grounding, multi-orientation, and hallucination of repetition. CC-OCR aims to comprehensively evaluate the capabilities of LMMs on OCR-centered tasks, driving advancement in LMMs.
Abstract（参考訳）: 大規模マルチモーダルモデル (LMM) は, 自然言語による文書画像認識において, 顕著な性能を示した。しかし、リッチな構造ときめ細かい視覚的課題を持つリテラシーの能力の程度は、まだ不明である。現在のランドスケープには、LMMの文字化能力を効果的に測定する包括的なベンチマークが欠けている。既存のベンチマークは狭いシナリオや特定のタスクによって制限されることが多い。この目的のために,多様なシナリオ,タスク,課題を有する包括的なベンチマークであるCC-OCRを紹介した。 CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。さらに,9つの顕著なLMMを評価し,これらのモデルの長所と短所を明らかにする。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。

関連論文リスト

Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency [31.095908827004695]
MLLM(Multimodal Large Language Models)は,文書画像タスクにおいて高い性能を示す。彼らはDocument Image Machine Translation (DIMT)と闘っている。我々は,「バイリンガル認知アドバンテージ」の概念に触発されて,SSR(Synchronously Self-Reviewing)という新たな微調整パラダイムを導入した。
論文参考訳（メタデータ） (2025-07-11T05:02:06Z)
OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning [39.141660558608265]
OCR-Reasoningは、テキストリッチな画像推論タスクでマルチモーダル大言語モデルを評価するために設計された包括的なベンチマークである。このベンチマークは、6つのコア推論能力と、テキストリッチなビジュアルシナリオにおける18の実践的推論タスクにまたがる1069の人手による例で構成されている。注釈付き推論プロセスと最終回答により、OCR-Reasoningはモデルによって生成された最終回答だけでなく、それらの推論プロセスも評価する。
論文参考訳（メタデータ） (2025-05-22T15:25:14Z)
Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues? [73.35232225256968]
Reasoning-OCRは、リッチビジュアルテキストから抽出できるキューに基づいて複雑な推論問題を解決するためにLMMに挑戦する。我々の評価は、異なる理由付けの課題において、プロプライエタリでオープンソースのLMMにいくつかの洞察を与えます。
論文参考訳（メタデータ） (2025-05-19T06:45:18Z)
Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity [1.8130068086063336]
マルチモーダル大規模言語モデル (LLM) は様々な産業分野において大きな注目を集めている。本研究では,多様な視覚的複雑度を持つ単一文字画像を用いた文脈非依存のOCRタスクについて検討する。以上の結果から, マルチモーダルLLMは従来のOCR法と約300ppiで一致するが, 性能は150ppi以下であった。
論文参考訳（メタデータ） (2025-03-31T02:09:19Z)
MRCEval: A Comprehensive, Challenging and Accessible Machine Reading Comprehension Benchmark [51.73839215956791]
我々は、理解を読むのに必要な重要な能力を分類する新しい分類法を導入する。この分類に基づくMRCEvalは,大規模言語モデル(LLM)をサンプルジェネレータおよび選択判断器として活用するMRCベンチマークである。 MRCEvalは総合的で、挑戦的でアクセスしやすいベンチマークであり、13のRCスキルをカバーし、合計2.1Kの高品質なマルチチョイスの質問をカバーしている。
論文参考訳（メタデータ） (2025-03-10T10:20:05Z)
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。現代の視覚言語モデル(GPT-4、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文参考訳（メタデータ） (2025-02-20T18:41:23Z)
Ocean-OCR: Towards General OCR Application via a Vision-Language Model [6.70908296002235]
textbfOcean-OCRは3B MLLMで、様々なOCRシナリオにおける最先端性能と、一般的なタスクにおける同等の理解能力を持つ。我々は、オープンソースのOCRベンチマークや様々なOCRシナリオにおける包括的な実験を通じて、Ocean-OCRの優位性を実証する。
論文参考訳（メタデータ） (2025-01-26T15:20:39Z)
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文参考訳（メタデータ） (2024-12-31T07:32:35Z)
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文参考訳（メタデータ） (2024-10-25T16:00:55Z)
MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-08-26T19:26:50Z)
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation [33.66939971907121]
評価の結果,GPT-4Vはラテン内容の認識や理解に優れていたが,多言語シナリオや複雑なタスクに苦慮していることが明らかとなった。一般に、多様なOCRタスクを扱う汎用性にもかかわらず、GPT-4Vは既存の最先端のOCRモデルより優れているわけではない。
論文参考訳（メタデータ） (2023-10-25T17:38:55Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。