論文の概要: TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2410.23266v1
- Date: Wed, 30 Oct 2024 17:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:24.740684
- Title: TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
- Title(参考訳): Tomato:マルチモーダルファンデーションモデルにおける視覚的テンポラル推論能力の評価
- Authors: Ziyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan,
- Abstract要約: トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
- 参考スコア(独自算出の注目度): 28.883607056108605
- License:
- Abstract: Existing benchmarks often highlight the remarkable performance achieved by state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal context for video understanding. However, how well do the models truly perform visual temporal reasoning? Our study of existing benchmarks shows that this capability of MFMs is likely overestimated as many questions can be solved by using a single, few, or out-of-order frames. To systematically examine current visual temporal reasoning tasks, we propose three principles with corresponding metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame Information Disparity. Following these principles, we introduce TOMATO, Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to rigorously assess MFMs' temporal reasoning capabilities in video understanding. TOMATO comprises 1,484 carefully curated, human-annotated questions spanning six tasks (i.e., action count, direction, rotation, shape & trend, velocity & frequency, and visual cues), applied to 1,417 videos, including 805 self-recorded and -generated videos, that encompass human-centric, real-world, and simulated scenarios. Our comprehensive evaluation reveals a human-model performance gap of 57.3% with the best-performing model. Moreover, our in-depth analysis uncovers more fundamental limitations beyond this gap in current MFMs. While they can accurately recognize events in isolated frames, they fail to interpret these frames as a continuous sequence. We believe TOMATO will serve as a crucial testbed for evaluating the next-generation MFMs and as a call to the community to develop AI systems capable of comprehending human world dynamics through the video modality.
- Abstract(参考訳): 既存のベンチマークでは、ビデオ理解に時間的コンテキストを活用する上で、最先端のMultimodal Foundation Models(MFM)によって達成された顕著なパフォーマンスを強調していることが多い。
しかし、モデルが真の視覚的時間的推論をどの程度実行しているか?
既存のベンチマークでは、MFMのこの能力は、単一、少数、または外部のフレームを使用することで、多くの疑問が解決できるため、過大評価される可能性が高い。
現在の視覚的時間的推論タスクを体系的に検討するために,(1)多フレーム利得,(2)フレーム次数感性,(3)フレーム情報格差の3つの原則を提案する。
これらの原則に従い、ビデオ理解におけるMFMの時間的推論能力を厳格に評価する新しいベンチマークである、Tomato(テンポラル推論マルチモーダル評価)を紹介する。
TOMATOは、6つのタスク(アクションカウント、方向、回転、形状、傾向、速度と周波数、視覚的手がかり)にまたがる1,484の注意深いキュレートされた人間の注釈付き質問で構成され、人間中心、現実世界、シミュレートされたシナリオを含む805の自己記録および生成されたビデオを含む1,417のビデオに適用される。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
さらに、我々の詳細な分析により、現在のMFMにおけるこのギャップを超えて、より根本的な制限が明らかになった。
分離されたフレーム内のイベントを正確に認識できるが、これらのフレームを連続的なシーケンスとして解釈することができない。
私たちは、Tomatoが次世代のMFMを評価する上で重要なテストベッドとして機能し、ビデオモダリティを通じて人間の世界ダイナミクスを解釈できるAIシステムを開発するためのコミュニティへの呼びかけとして役立ちます。
関連論文リスト
- MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。
平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。
幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。
さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - Temporal Working Memory: Query-Guided Segment Refinement for Enhanced Multimodal Understanding [28.635761403266496]
MFMの時間的モデリング能力を高めることを目的とした、特別な認知モジュールである時間的ワーキングメモリ(TWM)を導入する。
TWMは時間次元にまたがるタスク関連情報を選択的に保持し、ビデオおよびオーディオコンテンツの処理を通して重要な詳細が保存されることを保証する。
我々のTWMでは、9つの最先端モデルが、ビデオキャプション、質問応答、ビデオテキスト検索といったタスクにおいて、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2025-02-09T20:26:30Z) - Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
本稿では,TemporalVQAという評価ベンチマークを提案する。
第1部では、時間的に連続するビデオフレームを分析してイベントのシーケンスを決定するためにMLLMが必要である。
第2部では、複数選択の質問としてフレーム化された時間差のある画像ペアを提示し、MLLMに秒から数年のオプションで画像間のタイムラプスを見積もる。
GPT-4o や Gemini-1.5-Pro などのモデルを含む先進MLLM の評価は,重要な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-18T06:41:48Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、17の慎重に設計されたタスクで構成されており、内的感情と外的表現、静的、動的、基本的、複雑にまたがる、シングルモーダルとクロスモーダルという2つの主要な側面を探索する。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。