論文の概要: MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios
- arxiv url: http://arxiv.org/abs/2505.21333v1
- Date: Tue, 27 May 2025 15:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.758392
- Title: MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios
- Title(参考訳): MME-VideoOCR:ビデオシナリオにおけるマルチモーダルLLMのOCRに基づく機能評価
- Authors: Yang Shi, Huanqian Wang, Wulin Xie, Huanyao Zhang, Lijie Zhao, Yi-Fan Zhang, Xinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yuanxing Zhang, Pengfei Wan, Haotian Wang, Wenjing Yang,
- Abstract要約: 我々は,ビデオOCRアプリケーションシナリオを包括的に含むMME-VideoOCRベンチマークを紹介する。
ベンチマークは、解像度、アスペクト比、持続時間が異なる1,464本のビデオと、2000本の細心の注意を払って、手動で注釈付けされた質問回答ペアで構成されている。
MME-VideoOCRを用いて18種類のMLLMを評価し,最高の性能モデル(Gemini-2.5 Pro)でさえ73.7%の精度で達成できることを示した。
- 参考スコア(独自算出の注目度): 22.913173410608607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved considerable accuracy in Optical Character Recognition (OCR) from static images. However, their efficacy in video OCR is significantly diminished due to factors such as motion blur, temporal variations, and visual effects inherent in video content. To provide clearer guidance for training practical MLLMs, we introduce the MME-VideoOCR benchmark, which encompasses a comprehensive range of video OCR application scenarios. MME-VideoOCR features 10 task categories comprising 25 individual tasks and spans 44 diverse scenarios. These tasks extend beyond text recognition to incorporate deeper comprehension and reasoning of textual content within videos. The benchmark consists of 1,464 videos with varying resolutions, aspect ratios, and durations, along with 2,000 meticulously curated, manually annotated question-answer pairs. We evaluate 18 state-of-the-art MLLMs on MME-VideoOCR, revealing that even the best-performing model (Gemini-2.5 Pro) achieves an accuracy of only 73.7%. Fine-grained analysis indicates that while existing MLLMs demonstrate strong performance on tasks where relevant texts are contained within a single or few frames, they exhibit limited capability in effectively handling tasks that demand holistic video comprehension. These limitations are especially evident in scenarios that require spatio-temporal reasoning, cross-frame information integration, or resistance to language prior bias. Our findings also highlight the importance of high-resolution visual input and sufficient temporal coverage for reliable OCR in dynamic video scenarios.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は静的画像から光学文字認識(OCR)においてかなり精度が高い。
しかし、ビデオOCRにおける効果は、動画内容に固有の動きのぼやけ、時間的変動、視覚効果などの要因により著しく低下している。
実用的なMLLMのトレーニングのためのより明確なガイダンスを提供するため,ビデオOCRアプリケーションシナリオを包括的に含むMME-VideoOCRベンチマークを導入する。
MME-VideoOCRは、25の個別タスクからなる10のタスクカテゴリを持ち、44の多様なシナリオにまたがる。
これらのタスクは、テキスト認識を超えて、ビデオ内のテキストコンテンツの深い理解と推論を組み込む。
ベンチマークは、解像度、アスペクト比、持続時間が異なる1,464本のビデオと、2000本の細心の注意を払って、手動で注釈付けされた質問回答ペアで構成されている。
MME-VideoOCRを用いて18種類のMLLMを評価し,最高の性能モデル(Gemini-2.5 Pro)でさえ73.7%の精度で達成できることを示した。
細粒度解析により,既存のMLLMは,関連テキストが1フレームないし少数のフレームに含まれているタスクに対して高い性能を示す一方で,全体的ビデオ理解を必要とするタスクを効果的に処理する能力に限界があることが示唆された。
これらの制限は、時空間推論、クロスフレーム情報統合、言語の事前バイアスに対する抵抗を必要とするシナリオで特に顕著である。
また,ダイナミックビデオのシナリオにおいて,高分解能な視覚入力と,信頼性の高いOCRに対する十分な時間的カバレッジが重要であることも明らかにした。
関連論文リスト
- Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study [5.667343827196717]
本稿では,ビデオにおけるマルチモーダルモデルのOCR性能を評価するための新しいベンチマークを提案する。
我々は,画像LLMのOCR能力と手作業による改善,効率のバランス,コスト,データ品質を統合する半自動手法を用いて,このベンチマークを開発した。
論文 参考訳(メタデータ) (2024-12-29T23:20:01Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。