論文の概要: How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs
- arxiv url: http://arxiv.org/abs/2405.03690v2
- Date: Wed, 8 May 2024 19:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 12:23:27.605520
- Title: How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs
- Title(参考訳): 私のビデオLMMはどのくらい良いか?ビデオLMMのための複雑なビデオ推論とロバストネス評価スイート
- Authors: Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Jameel Hassan, Muzammal Naseer, Federico Tombari, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
- 参考スコア(独自算出の注目度): 98.37571997794072
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have led to the development of Video Large Multi-modal Models (Video-LMMs) that can handle a wide range of video understanding tasks. These models have the potential to be deployed in real-world applications such as robotics, AI assistants, medical surgery, and autonomous vehicles. The widespread adoption of Video-LMMs in our daily lives underscores the importance of ensuring and evaluating their robust performance in mirroring human-like reasoning and interaction capabilities in complex, real-world contexts. However, existing benchmarks for Video-LMMs primarily focus on general video comprehension abilities and neglect assessing their reasoning capabilities over complex videos in the real-world context, and robustness of these models through the lens of user prompts as text queries. In this paper, we present the Complex Video Reasoning and Robustness Evaluation Suite (CVRR-ES), a novel benchmark that comprehensively assesses the performance of Video-LMMs across 11 diverse real-world video dimensions. We evaluate 9 recent models, including both open-source and closed-source variants, and find that most of the Video-LMMs, especially open-source ones, struggle with robustness and reasoning when dealing with complex videos. Based on our analysis, we develop a training-free Dual-Step Contextual Prompting (DSCP) technique to enhance the performance of existing Video-LMMs. Our findings provide valuable insights for building the next generation of human-centric AI systems with advanced robustness and reasoning capabilities. Our dataset and code are publicly available at: https://mbzuai-oryx.github.io/CVRR-Evaluation-Suite/.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は,ビデオ理解タスクを幅広く扱えるビデオ大マルチモーダルモデル(Video Large Multi-LMM)の開発につながっている。
これらのモデルは、ロボット工学、AIアシスタント、医療手術、自動運転車といった現実世界のアプリケーションにデプロイされる可能性がある。
私たちの日常生活におけるビデオ-LMMの普及は、複雑な実世界のコンテキストにおける人間のような推論と相互作用能力のミラーリングにおいて、彼らの堅牢なパフォーマンスを保証し、評価することの重要性を浮き彫りにしている。
しかしながら、既存のビデオLMMのベンチマークでは、主に一般的なビデオ理解能力に焦点が当てられ、実世界のコンテキストにおける複雑なビデオに対する推論能力の評価や、テキストクエリとしてユーザプロンプトのレンズを通してこれらのモデルの堅牢性に焦点が当てられている。
本稿では,11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する新しいベンチマーク,CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)を提案する。
我々は、オープンソースとクローズドソースの両方を含む最近の9つのモデルを評価し、複雑なビデオを扱う際に、ビデオ-LMM、特にオープンソースモデルの大半がロバスト性や推論に苦しむことを発見した。
本研究では,既存のビデオLMMの性能向上を図るため,DSCP(Dual-Step Contextual Prompting)技術を開発した。
我々の発見は、高度な堅牢性と推論能力を備えた次世代の人間中心型AIシステムを構築する上で、貴重な洞察を提供する。
私たちのデータセットとコードは、https://mbzuai-oryx.github.io/CVRR-Evaluation-Suite/で公開されています。
関連論文リスト
- Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.15356325947731]
ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。
2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。
以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:05:00Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。