論文の概要: CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models
- arxiv url: http://arxiv.org/abs/2506.09943v1
- Date: Wed, 11 Jun 2025 17:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.15892
- Title: CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models
- Title(参考訳): CausalVQA:ビデオモデルのための物理的根拠付き因果推論ベンチマーク
- Authors: Aaron Foss, Chloe Evans, Sasha Mitts, Koustuv Sinha, Ammar Rizvi, Justine T. Kao,
- Abstract要約: CausalVQAはビデオ質問応答(VQA)のためのベンチマークデータセットである
それは、物理的世界の因果関係に対するモデルの理解を調査する質問と回答のペアで構成されている。
- 参考スコア(独自算出の注目度): 4.889577550694335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce CausalVQA, a benchmark dataset for video question answering (VQA) composed of question-answer pairs that probe models' understanding of causality in the physical world. Existing VQA benchmarks either tend to focus on surface perceptual understanding of real-world videos, or on narrow physical reasoning questions created using simulation environments. CausalVQA fills an important gap by presenting challenging questions that are grounded in real-world scenarios, while focusing on models' ability to predict the likely outcomes of different actions and events through five question types: counterfactual, hypothetical, anticipation, planning and descriptive. We designed quality control mechanisms that prevent models from exploiting trivial shortcuts, requiring models to base their answers on deep visual understanding instead of linguistic cues. We find that current frontier multimodal models fall substantially below human performance on the benchmark, especially on anticipation and hypothetical questions. This highlights a challenge for current systems to leverage spatial-temporal reasoning, understanding of physical principles, and comprehension of possible alternatives to make accurate predictions in real-world settings.
- Abstract(参考訳): 本稿では,物理的世界における因果関係の理解を探索する質問応答ペアからなるビデオ質問応答(VQA)のベンチマークデータセットCausalVQAを紹介する。
既存のVQAベンチマークは、現実世界のビデオの表面的な理解に焦点を当てるか、シミュレーション環境を使って作成した狭い物理的推論の問題に焦点を当てる傾向がある。
CausalVQAは、現実のシナリオに根ざした挑戦的な質問を提示することで、重要なギャップを埋めると同時に、5つの質問タイプ(反事実的、仮説的、予測的、計画的、記述的)を通じて異なるアクションとイベントの結果を予測するモデルの能力に焦点を当てている。
我々は、モデルが自明なショートカットを悪用することを防ぐ品質制御機構を設計し、モデルが答を言語的な手がかりではなく深い視覚的理解に基づくことを要求する。
現在のフロンティアのマルチモーダルモデルは、特に予測や仮説上の問題において、ベンチマークにおける人間のパフォーマンスよりも大幅に低下している。
このことは、現在のシステムが空間的時間的推論、物理原理の理解、現実の環境で正確な予測を行うための代替案の理解を活用する上での課題を浮き彫りにする。
関連論文リスト
- VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems [3.486120902611884]
本稿では,VQAシステムにおける様々な質問タイプの重要性と,その性能への影響について考察する。
本稿では,QTG-VQAを提案する。QTG-VQAは,質問型誘導型注意と適応学習機構を組み込んだ新しいアーキテクチャである。
論文 参考訳(メタデータ) (2024-09-14T07:42:41Z) - STAR: A Benchmark for Situated Reasoning in Real-World Videos [94.78038233351758]
本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。
データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。
本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
論文 参考訳(メタデータ) (2024-05-15T21:53:54Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。