論文の概要: OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2305.07895v7
- Date: Mon, 26 Aug 2024 02:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 01:17:09.371506
- Title: OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models
- Title(参考訳): OCRBench: 大規模マルチモーダルモデルにおけるOCRの隠れミステリーについて
- Authors: Yuliang Liu, Zhang Li, Mingxin Huang, Biao Yang, Wenwen Yu, Chunyuan Li, Xucheng Yin, Cheng-lin Liu, Lianwen Jin, Xiang Bai,
- Abstract要約: テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
- 参考スコア(独自算出の注目度): 122.27878464009181
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large models have recently played a dominant role in natural language processing and multimodal vision-language learning. However, their effectiveness in text-related visual tasks remains relatively unexplored. In this paper, we conducted a comprehensive evaluation of Large Multimodal Models, such as GPT4V and Gemini, in various text-related visual tasks including Text Recognition, Scene Text-Centric Visual Question Answering (VQA), Document-Oriented VQA, Key Information Extraction (KIE), and Handwritten Mathematical Expression Recognition (HMER). To facilitate the assessment of Optical Character Recognition (OCR) capabilities in Large Multimodal Models, we propose OCRBench, a comprehensive evaluation benchmark. OCRBench contains 29 datasets, making it the most comprehensive OCR evaluation benchmark available. Furthermore, our study reveals both the strengths and weaknesses of these models, particularly in handling multilingual text, handwritten text, non-semantic text, and mathematical expression recognition. Most importantly, the baseline results presented in this study could provide a foundational framework for the conception and assessment of innovative strategies targeted at enhancing zero-shot multimodal techniques. The evaluation pipeline and benchmark are available at https://github.com/Yuliang-Liu/MultimodalOCR.
- Abstract(参考訳): 大規模モデルは近年,自然言語処理やマルチモーダル視覚言語学習において重要な役割を担っている。
しかし、テキスト関連視覚課題におけるそれらの効果は、いまだに未解明のままである。
本稿では,テキスト認識,Scene Text-Centric Visual Question Answering (VQA), Document-Oriented VQA, Key Information extract (KIE), Handwriting Mathematical Expression Recognition (HMER) などのテキスト関連視覚タスクにおいて,GPT4VやGeminiなどの大規模マルチモーダルモデルの包括的評価を行った。
大規模マルチモーダルモデルにおける光学文字認識(OCR)機能の評価を容易にするため,包括的評価ベンチマークであるOCRBenchを提案する。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
さらに本研究では,これらのモデルの長所と短所,特に多言語テキスト,手書きテキスト,非意味テキスト,数学的表現認識を扱う際の長所と短所を明らかにした。
最も重要なことは、この研究で示されたベースラインの結果は、ゼロショットマルチモーダル技法の強化を目的とした革新的な戦略の構想と評価のための基礎的な枠組みを提供する可能性があることである。
評価パイプラインとベンチマークはhttps://github.com/Yuliang-Liu/MultimodalOCRで公開されている。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and
In-depth Evaluation [33.66939971907121]
評価の結果,GPT-4Vはラテン内容の認識や理解に優れていたが,多言語シナリオや複雑なタスクに苦慮していることが明らかとなった。
一般に、多様なOCRタスクを扱う汎用性にもかかわらず、GPT-4Vは既存の最先端のOCRモデルより優れているわけではない。
論文 参考訳(メタデータ) (2023-10-25T17:38:55Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。