論文の概要: TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2410.23266v1
- Date: Wed, 30 Oct 2024 17:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:24.740684
- Title: TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
- Title(参考訳): Tomato:マルチモーダルファンデーションモデルにおける視覚的テンポラル推論能力の評価
- Authors: Ziyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan,
- Abstract要約: トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
- 参考スコア(独自算出の注目度): 28.883607056108605
- License:
- Abstract: Existing benchmarks often highlight the remarkable performance achieved by state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal context for video understanding. However, how well do the models truly perform visual temporal reasoning? Our study of existing benchmarks shows that this capability of MFMs is likely overestimated as many questions can be solved by using a single, few, or out-of-order frames. To systematically examine current visual temporal reasoning tasks, we propose three principles with corresponding metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame Information Disparity. Following these principles, we introduce TOMATO, Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to rigorously assess MFMs' temporal reasoning capabilities in video understanding. TOMATO comprises 1,484 carefully curated, human-annotated questions spanning six tasks (i.e., action count, direction, rotation, shape & trend, velocity & frequency, and visual cues), applied to 1,417 videos, including 805 self-recorded and -generated videos, that encompass human-centric, real-world, and simulated scenarios. Our comprehensive evaluation reveals a human-model performance gap of 57.3% with the best-performing model. Moreover, our in-depth analysis uncovers more fundamental limitations beyond this gap in current MFMs. While they can accurately recognize events in isolated frames, they fail to interpret these frames as a continuous sequence. We believe TOMATO will serve as a crucial testbed for evaluating the next-generation MFMs and as a call to the community to develop AI systems capable of comprehending human world dynamics through the video modality.
- Abstract(参考訳): 既存のベンチマークでは、ビデオ理解に時間的コンテキストを活用する上で、最先端のMultimodal Foundation Models(MFM)によって達成された顕著なパフォーマンスを強調していることが多い。
しかし、モデルが真の視覚的時間的推論をどの程度実行しているか?
既存のベンチマークでは、MFMのこの能力は、単一、少数、または外部のフレームを使用することで、多くの疑問が解決できるため、過大評価される可能性が高い。
現在の視覚的時間的推論タスクを体系的に検討するために,(1)多フレーム利得,(2)フレーム次数感性,(3)フレーム情報格差の3つの原則を提案する。
これらの原則に従い、ビデオ理解におけるMFMの時間的推論能力を厳格に評価する新しいベンチマークである、Tomato(テンポラル推論マルチモーダル評価)を紹介する。
TOMATOは、6つのタスク(アクションカウント、方向、回転、形状、傾向、速度と周波数、視覚的手がかり)にまたがる1,484の注意深いキュレートされた人間の注釈付き質問で構成され、人間中心、現実世界、シミュレートされたシナリオを含む805の自己記録および生成されたビデオを含む1,417のビデオに適用される。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
さらに、我々の詳細な分析により、現在のMFMにおけるこのギャップを超えて、より根本的な制限が明らかになった。
分離されたフレーム内のイベントを正確に認識できるが、これらのフレームを連続的なシーケンスとして解釈することができない。
私たちは、Tomatoが次世代のMFMを評価する上で重要なテストベッドとして機能し、ビデオモダリティを通じて人間の世界ダイナミクスを解釈できるAIシステムを開発するためのコミュニティへの呼びかけとして役立ちます。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model [22.188795668927586]
ビデオファウンデーションモデル(VFM)は近年大きな進歩を遂げている。
既存のベンチマークと評価プロトコルは、比較的低い多様性、高い評価コスト、飽和したパフォーマンスメトリクスによって制限されることが多い。
これらの問題、すなわちVideoEvalに対処するための包括的なベンチマークスイートを構築しています。
論文 参考訳(メタデータ) (2024-07-09T01:49:08Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。