論文の概要: MLVU: Benchmarking Multi-task Long Video Understanding
- arxiv url: http://arxiv.org/abs/2406.04264v3
- Date: Wed, 01 Jan 2025 15:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 14:35:43.696233
- Title: MLVU: Benchmarking Multi-task Long Video Understanding
- Title(参考訳): MLVU:マルチタスク長ビデオ理解のベンチマーク
- Authors: Junjie Zhou, Yan Shu, Bo Zhao, Boya Wu, Zhengyang Liang, Shitao Xiao, Minghao Qin, Xi Yang, Yongping Xiong, Bo Zhang, Tiejun Huang, Zheng Liu,
- Abstract要約: MLVU (Multi-task Long Video Understanding Benchmark) と呼ばれる新しいベンチマークを提案する。
MLVUは以下の重要な値を示す: textit1) ビデオ長の相当かつ柔軟な拡張により、ベンチマークは幅広い期間にわたってLVUのパフォーマンスを評価することができる。
23の最新のMLLMによる実証研究は、今日の技術を改善するための重要な余地を明らかにしている。
- 参考スコア(独自算出の注目度): 28.35597611731375
- License:
- Abstract: The evaluation of Long Video Understanding (LVU) performance poses an important but challenging research problem. Despite previous efforts, the existing video understanding benchmarks are severely constrained by several issues, especially the insufficient lengths of videos, a lack of diversity in video types and evaluation tasks, and the inappropriateness for evaluating LVU performances. To address the above problems, we propose a new benchmark called MLVU (Multi-task Long Video Understanding Benchmark) for the comprehensive and in-depth evaluation of LVU. MLVU presents the following critical values: \textit{1)} The substantial and flexible extension of video lengths, which enables the benchmark to evaluate LVU performance across a wide range of durations. \textit{2)} The inclusion of various video genres, e.g., movies, surveillance footage, egocentric videos, cartoons, game videos, etc., which reflects the models' LVU performances in different scenarios. \textit{3)} The development of diversified evaluation tasks, which enables a comprehensive examination of MLLMs' key abilities in long-video understanding. The empirical study with 23 latest MLLMs reveals significant room for improvement in today's technique, as all existing methods struggle with most of the evaluation tasks and exhibit severe performance degradation when handling longer videos. Additionally, it suggests that factors such as context length, image-understanding ability, and the choice of LLM backbone can play critical roles in future advancements. We anticipate that MLVU will advance the research of long video understanding by providing a comprehensive and in-depth analysis of MLLMs.
- Abstract(参考訳): ロングビデオ理解(Long Video Understanding, LVU)の性能評価は重要な研究課題である。
これまでの努力にもかかわらず、既存のビデオ理解ベンチマークはいくつかの問題、特にビデオの長さの不足、ビデオの種類や評価タスクの多様性の欠如、LVUのパフォーマンスを評価するための不適切さなどによって厳しい制約を受けている。
上記の問題に対処するため,LVUの包括的かつ詳細な評価のためのMLVU (Multi-task Long Video Understanding Benchmark) と呼ばれる新しいベンチマークを提案する。
MLVUは以下の重要な値を示す: \textit{1} ビデオ長の実質的で柔軟な拡張により、ベンチマークは幅広い期間にわたってLVUのパフォーマンスを評価することができる。
さまざまなビデオジャンル、例えば映画、監視映像、エゴセントリックなビデオ、漫画、ゲームビデオなどが含まれており、異なるシナリオにおけるモデルのLVUパフォーマンスを反映している。
長ビデオ理解におけるMLLMの重要能力の総合的な検証を可能にする多角化評価タスクの開発。
23の最新のMLLMによる実証的研究は、既存のすべてのメソッドが多くの評価タスクに苦労し、より長いビデオを扱う際に深刻なパフォーマンス劣化を示すため、今日のテクニックにおいて、大きな改善の余地があることを明らかにしている。
さらに, 文脈長, 画像理解能力, LLMバックボーンの選択などの要因が, 今後の進歩において重要な役割を担っていることを示唆している。
我々はMLVUが、MLLMの包括的かつ詳細な分析を提供することで、長いビデオ理解の研究を進めることを期待する。
関連論文リスト
- VidComposition: Can MLLMs Analyze Compositions in Compiled Videos? [35.05305360406699]
VidCompositionは、マルチモーダル大言語モデル(MLLM)の映像合成理解能力を評価するためのベンチマークである。
これには、カメラの動き、アングル、ショットサイズ、物語構造、キャラクターの動作、感情など、様々な構成的な側面をカバーしている。
33個のオープンソースおよびプロプライエタリなMLLMを総合的に評価した結果,人的・モデル的能力の差は顕著であった。
論文 参考訳(メタデータ) (2024-11-17T06:23:46Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z) - VLM-Eval: A General Evaluation on Video Large Language Models [16.92780012093112]
キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統合評価を導入する。
本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。
ビデオLLMを学術データセットを超えて評価し,数百対のビデオインストラクションペアのみを微調整で駆動シナリオの認識と推論能力を示す。
論文 参考訳(メタデータ) (2023-11-20T16:02:10Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。