論文の概要: STAR: A Benchmark for Situated Reasoning in Real-World Videos
- arxiv url: http://arxiv.org/abs/2405.09711v1
- Date: Wed, 15 May 2024 21:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:50:04.609215
- Title: STAR: A Benchmark for Situated Reasoning in Real-World Videos
- Title(参考訳): STAR: リアルタイムビデオの推論のためのベンチマーク
- Authors: Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum, Chuang Gan,
- Abstract要約: 本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。
データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。
本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
- 参考スコア(独自算出の注目度): 94.78038233351758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning in the real world is not divorced from situations. How to capture the present knowledge from surrounding situations and perform reasoning accordingly is crucial and challenging for machine intelligence. This paper introduces a new benchmark that evaluates the situated reasoning ability via situation abstraction and logic-grounded question answering for real-world videos, called Situated Reasoning in Real-World Videos (STAR Benchmark). This benchmark is built upon the real-world videos associated with human actions or interactions, which are naturally dynamic, compositional, and logical. The dataset includes four types of questions, including interaction, sequence, prediction, and feasibility. We represent the situations in real-world videos by hyper-graphs connecting extracted atomic entities and relations (e.g., actions, persons, objects, and relationships). Besides visual perception, situated reasoning also requires structured situation comprehension and logical reasoning. Questions and answers are procedurally generated. The answering logic of each question is represented by a functional program based on a situation hyper-graph. We compare various existing video reasoning models and find that they all struggle on this challenging situated reasoning task. We further propose a diagnostic neuro-symbolic model that can disentangle visual perception, situation abstraction, language understanding, and functional reasoning to understand the challenges of this benchmark.
- Abstract(参考訳): 現実世界での推論は状況から逸脱しない。
マシンインテリジェンスにとって、現在の知識を周囲の状況から捉え、それに応じて推論を行う方法は不可欠で難しい。
本稿では、実世界のビデオにおける状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマーク「Situated Reasoning in Real-World Videos (STAR Benchmark)」を提案する。
このベンチマークは、人間のアクションやインタラクションに関連する現実世界のビデオの上に構築されています。
データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。
我々は,抽出された原子実体と関係(例えば,行動,人,物,関係)を連結したハイパーグラフを用いて実世界の映像の状況を表現する。
視覚的知覚の他に、位置推論には構造化された状況理解と論理的推論も必要である。
質問や回答は手続き的に生成される。
各質問の回答ロジックは、状況ハイパーグラフに基づく関数プログラムによって表現される。
既存のさまざまなビデオ推論モデルを比較して、それらがすべて、この困難な位置推論タスクに苦労していることを確かめる。
さらに、このベンチマークの課題を理解するために、視覚知覚、状況抽象化、言語理解、機能的推論を両立させることができる診断的ニューロシンボリックモデルを提案する。
関連論文リスト
- SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z) - Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-12T02:37:20Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions [11.078508605894411]
CRAFTは、物理的力とオブジェクト相互作用に関する因果推論を必要とする新しい視覚的質問応答データセットです。
10種類の仮想環境から3kビデオから生成される、38kビデオと質問ペアを含んでいる。
人間の認知心理学の分野における力のダイナミクスの理論に着想を得て,対象の意図を理解するための新しい質問カテゴリーを導入する。
論文 参考訳(メタデータ) (2020-12-08T09:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。