Fugu-MT 論文翻訳(概要): MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

論文の概要: MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

arxiv url: http://arxiv.org/abs/2505.21333v1
Date: Tue, 27 May 2025 15:27:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.758392
Title: MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios
Title（参考訳）: MME-VideoOCR:ビデオシナリオにおけるマルチモーダルLLMのOCRに基づく機能評価
Authors: Yang Shi, Huanqian Wang, Wulin Xie, Huanyao Zhang, Lijie Zhao, Yi-Fan Zhang, Xinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yuanxing Zhang, Pengfei Wan, Haotian Wang, Wenjing Yang,
Abstract要約: 我々は,ビデオOCRアプリケーションシナリオを包括的に含むMME-VideoOCRベンチマークを紹介する。ベンチマークは、解像度、アスペクト比、持続時間が異なる1,464本のビデオと、2000本の細心の注意を払って、手動で注釈付けされた質問回答ペアで構成されている。 MME-VideoOCRを用いて18種類のMLLMを評価し,最高の性能モデル(Gemini-2.5 Pro)でさえ73.7%の精度で達成できることを示した。
参考スコア（独自算出の注目度）: 22.913173410608607
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have achieved considerable accuracy in Optical Character Recognition (OCR) from static images. However, their efficacy in video OCR is significantly diminished due to factors such as motion blur, temporal variations, and visual effects inherent in video content. To provide clearer guidance for training practical MLLMs, we introduce the MME-VideoOCR benchmark, which encompasses a comprehensive range of video OCR application scenarios. MME-VideoOCR features 10 task categories comprising 25 individual tasks and spans 44 diverse scenarios. These tasks extend beyond text recognition to incorporate deeper comprehension and reasoning of textual content within videos. The benchmark consists of 1,464 videos with varying resolutions, aspect ratios, and durations, along with 2,000 meticulously curated, manually annotated question-answer pairs. We evaluate 18 state-of-the-art MLLMs on MME-VideoOCR, revealing that even the best-performing model (Gemini-2.5 Pro) achieves an accuracy of only 73.7%. Fine-grained analysis indicates that while existing MLLMs demonstrate strong performance on tasks where relevant texts are contained within a single or few frames, they exhibit limited capability in effectively handling tasks that demand holistic video comprehension. These limitations are especially evident in scenarios that require spatio-temporal reasoning, cross-frame information integration, or resistance to language prior bias. Our findings also highlight the importance of high-resolution visual input and sufficient temporal coverage for reliable OCR in dynamic video scenarios.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)は静的画像から光学文字認識(OCR)においてかなり精度が高い。しかし、ビデオOCRにおける効果は、動画内容に固有の動きのぼやけ、時間的変動、視覚効果などの要因により著しく低下している。実用的なMLLMのトレーニングのためのより明確なガイダンスを提供するため,ビデオOCRアプリケーションシナリオを包括的に含むMME-VideoOCRベンチマークを導入する。 MME-VideoOCRは、25の個別タスクからなる10のタスクカテゴリを持ち、44の多様なシナリオにまたがる。これらのタスクは、テキスト認識を超えて、ビデオ内のテキストコンテンツの深い理解と推論を組み込む。ベンチマークは、解像度、アスペクト比、持続時間が異なる1,464本のビデオと、2000本の細心の注意を払って、手動で注釈付けされた質問回答ペアで構成されている。 MME-VideoOCRを用いて18種類のMLLMを評価し,最高の性能モデル(Gemini-2.5 Pro)でさえ73.7%の精度で達成できることを示した。細粒度解析により,既存のMLLMは,関連テキストが1フレームないし少数のフレームに含まれているタスクに対して高い性能を示す一方で,全体的ビデオ理解を必要とするタスクを効果的に処理する能力に限界があることが示唆された。これらの制限は、時空間推論、クロスフレーム情報統合、言語の事前バイアスに対する抵抗を必要とするシナリオで特に顕著である。また,ダイナミックビデオのシナリオにおいて,高分解能な視覚入力と,信頼性の高いOCRに対する十分な時間的カバレッジが重要であることも明らかにした。

関連論文リスト

Vid-SME: Membership Inference Attacks against Large Video Understanding Models [56.31088116526825]
ビデオ理解モデル(VULLM)で使用されるビデオデータに適した,最初の会員推論手法であるVid-SMEを紹介する。自然なビデオフレームと時間的に反転したビデオフレームのSME差を利用して、Vid-SMEは、与えられたビデオがモデルのトレーニングセットの一部であるかどうかを判断するロバストなメンバーシップスコアを導出する。様々な自己学習およびオープンソースVULLMの実験は、Vid-SMEの強力な有効性を示している。
論文参考訳（メタデータ） (2025-05-29T13:17:25Z)
Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity [1.8130068086063336]
マルチモーダル大規模言語モデル (LLM) は様々な産業分野において大きな注目を集めている。本研究では,多様な視覚的複雑度を持つ単一文字画像を用いた文脈非依存のOCRタスクについて検討する。以上の結果から, マルチモーダルLLMは従来のOCR法と約300ppiで一致するが, 性能は150ppi以下であった。
論文参考訳（メタデータ） (2025-03-31T02:09:19Z)
Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments [3.5936169218390703]
本稿では、動的ビデオ環境における光学的文字認識(OCR)タスクの視覚言語モデル(VLM)を評価するためのオープンソースのベンチマークを提案する。コードエディタ,ニュースブロードキャスト,YouTubeビデオ,広告など,さまざまな領域にまたがる1,477の注釈付きフレームを含むキュレートデータセットを提案する。
論文参考訳（メタデータ） (2025-02-10T13:20:19Z)
Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study [5.667343827196717]
本稿では,ビデオにおけるマルチモーダルモデルのOCR性能を評価するための新しいベンチマークを提案する。我々は,画像LLMのOCR能力と手作業による改善,効率のバランス,コスト,データ品質を統合する半自動手法を用いて,このベンチマークを開発した。
論文参考訳（メタデータ） (2024-12-29T23:20:01Z)
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文参考訳（メタデータ） (2024-12-03T07:03:25Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-31T17:59:47Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。