論文の概要: Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
- arxiv url: http://arxiv.org/abs/2405.21075v2
- Date: Sun, 16 Jun 2024 15:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:08:51.151829
- Title: Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
- Title(参考訳): Video-MME:ビデオ分析におけるマルチモーダルLCMの総合評価ベンチマーク
- Authors: Chaoyou Fu, Yuhan Dai, Yongdong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun,
- Abstract要約: Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 118.08008540513596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the quest for artificial general intelligence, Multi-modal Large Language Models (MLLMs) have emerged as a focal point in recent advancements. However, the predominant focus remains on developing their capabilities in static image understanding. The potential of MLLMs in processing sequential visual data is still insufficiently explored, highlighting the absence of a comprehensive, high-quality assessment of their performance. In this paper, we introduce Video-MME, the first-ever full-spectrum, Multi-Modal Evaluation benchmark of MLLMs in Video analysis. Our work distinguishes from existing benchmarks through four key features: 1) Diversity in video types, spanning 6 primary visual domains with 30 subfields to ensure broad scenario generalizability; 2) Duration in temporal dimension, encompassing both short-, medium-, and long-term videos, ranging from 11 seconds to 1 hour, for robust contextual dynamics; 3) Breadth in data modalities, integrating multi-modal inputs besides video frames, including subtitles and audios, to unveil the all-round capabilities of MLLMs; 4) Quality in annotations, utilizing rigorous manual labeling by expert annotators to facilitate precise and reliable model assessment. 900 videos with a total of 254 hours are manually selected and annotated by repeatedly viewing all the video content, resulting in 2,700 question-answer pairs. With Video-MME, we extensively evaluate various state-of-the-art MLLMs, including GPT-4 series and Gemini 1.5 Pro, as well as open-source image models like InternVL-Chat-V1.5 and video models like LLaVA-NeXT-Video. Our experiments reveal that Gemini 1.5 Pro is the best-performing commercial model, significantly outperforming the open-source models. Our dataset along with these findings underscores the need for further improvements in handling longer sequences and multi-modal data. Project Page: https://video-mme.github.io
- Abstract(参考訳): 近年,多モード大規模言語モデル (MLLM) が注目されている。
しかし、静的なイメージ理解において、その能力の開発に焦点が当てられている。
シーケンシャルな視覚データ処理におけるMLLMのポテンシャルはいまだ不十分であり、その性能の包括的で高品質な評価が欠如していることが浮き彫りになっている。
本稿では,ビデオ解析におけるMLLMのマルチモード評価ベンチマークであるVideo-MMEを紹介する。
私たちの研究は、既存のベンチマークと4つの重要な特徴を区別しています。
1) 広範シナリオの一般化性を確保するため、6つの主要視覚領域と30のサブフィールドにまたがる映像タイプの多様性。
2) 時間的次元の持続時間,11秒から1時間以内の短・中・長期のビデオを含む。
3)データモダリティの進歩,サブタイトルや音声を含むビデオフレーム以外のマルチモーダル入力の統合により,MLLMの全機能を公開すること。
4) 注釈の質は、専門家アノテータによる厳密なマニュアルラベリングを利用して、正確かつ信頼性の高いモデルアセスメントを容易にする。
合計254時間の900本のビデオが手動で選択され、すべてのビデオコンテンツを繰り返し視聴することで注釈付けされ、2,700対の質問応答対が生成される。
ビデオMMEでは,GPT-4シリーズやGemini 1.5 Pro,InternVL-Chat-V1.5などのオープンソースイメージモデル,LLaVA-NeXT-Videoなどのビデオモデルなど,最先端のMLLMを幅広く評価する。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
これらの結果とともに、我々のデータセットは、より長いシーケンスとマルチモーダルデータを扱うためのさらなる改善の必要性を浮き彫りにしている。
Project Page: https://video-mme.github.io
関連論文リスト
- StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding [48.24581407583288]
StreamingBenchはMLLMのストリーミングビデオ理解能力を評価するために設計された最初の包括的なベンチマークである。
我々は、13のオープンソースおよびプロプライエタリなMLLMを用いてStreamingBenchの実験を行い、最も高度なプロプライエタリなMLLMでさえ、人間レベルのストリーミングビデオ理解能力よりはるかに低い性能で機能することを発見した。
論文 参考訳(メタデータ) (2024-11-06T02:50:30Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - VideoVista: A Versatile Benchmark for Video Understanding and Reasoning [46.838692817107116]
さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介します。
VideoVistaは、14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問で構成されており、期間は数秒から10分以上である。
19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理推論、因果推論)を含んでいる。
論文 参考訳(メタデータ) (2024-06-17T08:09:00Z) - VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs [55.82090875098132]
VideoLLaMA 2は、ビデオおよびオーディオ指向タスクにおける時空間モデリングと音声理解を強化するために設計されたビデオ大言語モデル(Video Large Language Models, Video-LLMs)のセットである。
VideoLLaMA 2は、オープンソースモデル間の競争結果を一貫して達成し、いくつかのベンチマークでいくつかのプロプライエタリなモデルに近づいた。
論文 参考訳(メタデータ) (2024-06-11T17:22:23Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。