論文の概要: VideoVista: A Versatile Benchmark for Video Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2406.11303v1
- Date: Mon, 17 Jun 2024 08:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:50:52.736822
- Title: VideoVista: A Versatile Benchmark for Video Understanding and Reasoning
- Title(参考訳): VideoVista:ビデオの理解と推論のためのVersatileベンチマーク
- Authors: Yunxin Li, Xinyu Chen, Baotian Hu, Longyue Wang, Haoyuan Shi, Min Zhang,
- Abstract要約: さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介します。
VideoVistaは、14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問で構成されており、期間は数秒から10分以上である。
19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理推論、因果推論)を含んでいる。
- 参考スコア(独自算出の注目度): 46.838692817107116
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite significant breakthroughs in video analysis driven by the rapid development of large multimodal models (LMMs), there remains a lack of a versatile evaluation benchmark to comprehensively assess these models' performance in video understanding and reasoning. To address this, we present VideoVista, a video QA benchmark that integrates challenges across diverse content categories, durations, and abilities. Specifically, VideoVista comprises 25,000 questions derived from 3,400 videos spanning 14 categories (e.g., Howto, Film, and Entertainment) with durations ranging from a few seconds to over 10 minutes. Besides, it encompasses 19 types of understanding tasks (e.g., anomaly detection, interaction understanding) and 8 reasoning tasks (e.g., logical reasoning, causal reasoning). To achieve this, we present an automatic data construction framework, leveraging powerful GPT-4o alongside advanced analysis tools (e.g., video splitting, object segmenting, and tracking). We also utilize this framework to construct training data to enhance the capabilities of video-related LMMs (Video-LMMs). Through a comprehensive and quantitative evaluation of cutting-edge models, we reveal that: 1) Video-LMMs face difficulties in fine-grained video tasks involving temporal location, object tracking, and anomaly detection; 2) Video-LMMs present inferior logical and relation reasoning abilities; 3) Open-source Video-LMMs' performance is significantly lower than GPT-4o and Gemini-1.5, lagging by 20 points. This highlights the crucial role VideoVista will play in advancing LMMs that can accurately understand videos and perform precise reasoning.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) の急速な開発によって動画解析が著しく進歩したにもかかわらず、ビデオ理解と推論においてこれらのモデルの性能を総合的に評価する汎用評価ベンチマークはいまだに存在しない。
これを解決するために、さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介する。
具体的には、VideoVistaは14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問を抽出する。
さらに、19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理的推論、因果推論)を含んでいる。
そこで我々は,高度な解析ツール(例えば,ビデオ分割,オブジェクト分割,トラッキング)とともに,強力なGPT-4oを利用する自動データ構築フレームワークを提案する。
また、このフレームワークを利用してトレーニングデータを構築し、ビデオ関連LMM(Video-LMM)の能力を高める。
最先端モデルの包括的かつ定量的な評価を通じて、次のように明らかにする。
1)ビデオLMMは、時間的位置、物体追跡、異常検出を含むきめ細かい映像タスクにおいて困難に直面している。
2)ビデオLMMは、論理的・関係的推論能力に劣る。
3) GPT-4o や Gemini-1.5 に比べて,オープンソースの Video-LMM の性能は著しく低下し,20ポイント遅れた。
このことは、ビデオの正確な理解と正確な推論を行うLMMの進歩において、VideoVistaが果たす重要な役割を強調している。
関連論文リスト
- Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs [20.168429351519055]
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
VideoNIAHは、関連のない画像/テキスト 'needles' をオリジナルビデオに挿入することで、クエリ応答からテストビデオコンテンツを分離する。
アノテーションはこれらの針からのみ生成され、ビデオソースの多様性と様々なクエリ応答が保証される。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。