Fugu-MT 論文翻訳(概要): TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

論文の概要: TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

arxiv url: http://arxiv.org/abs/2410.23266v1
Date: Wed, 30 Oct 2024 17:50:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.469733
Title: TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
Title（参考訳）: Tomato:マルチモーダルファンデーションモデルにおける視覚的テンポラル推論能力の評価
Authors: Ziyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan,
Abstract要約: トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。 TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
参考スコア（独自算出の注目度）: 28.883607056108605
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing benchmarks often highlight the remarkable performance achieved by state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal context for video understanding. However, how well do the models truly perform visual temporal reasoning? Our study of existing benchmarks shows that this capability of MFMs is likely overestimated as many questions can be solved by using a single, few, or out-of-order frames. To systematically examine current visual temporal reasoning tasks, we propose three principles with corresponding metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame Information Disparity. Following these principles, we introduce TOMATO, Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to rigorously assess MFMs' temporal reasoning capabilities in video understanding. TOMATO comprises 1,484 carefully curated, human-annotated questions spanning six tasks (i.e., action count, direction, rotation, shape & trend, velocity & frequency, and visual cues), applied to 1,417 videos, including 805 self-recorded and -generated videos, that encompass human-centric, real-world, and simulated scenarios. Our comprehensive evaluation reveals a human-model performance gap of 57.3% with the best-performing model. Moreover, our in-depth analysis uncovers more fundamental limitations beyond this gap in current MFMs. While they can accurately recognize events in isolated frames, they fail to interpret these frames as a continuous sequence. We believe TOMATO will serve as a crucial testbed for evaluating the next-generation MFMs and as a call to the community to develop AI systems capable of comprehending human world dynamics through the video modality.
Abstract（参考訳）: 既存のベンチマークでは、ビデオ理解に時間的コンテキストを活用する上で、最先端のMultimodal Foundation Models(MFM)によって達成された顕著なパフォーマンスを強調していることが多い。しかし、モデルが真の視覚的時間的推論をどの程度実行しているか? 既存のベンチマークでは、MFMのこの能力は、単一、少数、または外部のフレームを使用することで、多くの疑問が解決できるため、過大評価される可能性が高い。現在の視覚的時間的推論タスクを体系的に検討するために,(1)多フレーム利得,(2)フレーム次数感性,(3)フレーム情報格差の3つの原則を提案する。これらの原則に従い、ビデオ理解におけるMFMの時間的推論能力を厳格に評価する新しいベンチマークである、Tomato(テンポラル推論マルチモーダル評価)を紹介する。 TOMATOは、6つのタスク(アクションカウント、方向、回転、形状、傾向、速度と周波数、視覚的手がかり)にまたがる1,484の注意深いキュレートされた人間の注釈付き質問で構成され、人間中心、現実世界、シミュレートされたシナリオを含む805の自己記録および生成されたビデオを含む1,417のビデオに適用される。総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。さらに、我々の詳細な分析により、現在のMFMにおけるこのギャップを超えて、より根本的な制限が明らかになった。分離されたフレーム内のイベントを正確に認識できるが、これらのフレームを連続的なシーケンスとして解釈することができない。私たちは、Tomatoが次世代のMFMを評価する上で重要なテストベッドとして機能し、ビデオモダリティを通じて人間の世界ダイナミクスを解釈できるAIシステムを開発するためのコミュニティへの呼びかけとして役立ちます。

関連論文リスト

HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文参考訳（メタデータ） (2025-06-05T19:12:45Z)
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos [22.10711693948861]
ビデオにおけるマルチモーダルディープ推論のためのベンチマークMMR-Vを提案する。ベンチマークの特徴は以下のとおりである。実験によると、現在のモデルはまだマルチモーダル推論に苦戦している。
論文参考訳（メタデータ） (2025-06-04T16:33:41Z)
MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
Temporal Working Memory: Query-Guided Segment Refinement for Enhanced Multimodal Understanding [28.635761403266496]
MFMの時間的モデリング能力を高めることを目的とした、特別な認知モジュールである時間的ワーキングメモリ(TWM)を導入する。 TWMは時間次元にまたがるタスク関連情報を選択的に保持し、ビデオおよびオーディオコンテンツの処理を通して重要な詳細が保存されることを保証する。我々のTWMでは、9つの最先端モデルが、ビデオキャプション、質問応答、ビデオテキスト検索といったタスクにおいて、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2025-02-09T20:26:30Z)
Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
本稿では,TemporalVQAという評価ベンチマークを提案する。第1部では、時間的に連続するビデオフレームを分析してイベントのシーケンスを決定するためにMLLMが必要である。第2部では、複数選択の質問としてフレーム化された時間差のある画像ペアを提示し、MLLMに秒から数年のオプションで画像間のタイムラプスを見積もる。 GPT-4o や Gemini-1.5-Pro などのモデルを含む先進MLLM の評価は,重要な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2025-01-18T06:41:48Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model [22.188795668927586]
ビデオファウンデーションモデル(VFM)は近年大きな進歩を遂げている。既存のベンチマークと評価プロトコルは、比較的低い多様性、高い評価コスト、飽和したパフォーマンスメトリクスによって制限されることが多い。これらの問題、すなわちVideoEvalに対処するための包括的なベンチマークスイートを構築しています。
論文参考訳（メタデータ） (2024-07-09T01:49:08Z)
WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。質問の定式化に不可欠な5つの世界知識を同定する。我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文参考訳（メタデータ） (2024-05-06T08:42:34Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)
ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文参考訳（メタデータ） (2023-11-02T22:17:03Z)
VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文参考訳（メタデータ） (2023-07-06T17:47:52Z)
MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文参考訳（メタデータ） (2021-06-04T17:57:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。