論文の概要: CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions
- arxiv url: http://arxiv.org/abs/2012.04293v1
- Date: Tue, 8 Dec 2020 09:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 17:49:32.683651
- Title: CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions
- Title(参考訳): CRAFT: 力と非作用に関する因果関係のベンチマーク
- Authors: Tayfun Ates, Muhammed Samil Atesoglu, Cagatay Yigit, Ilker Kesen, Mert
Kobas, Erkut Erdem, Aykut Erdem, Tilbe Goksun, Deniz Yuret
- Abstract要約: CRAFTは、物理的力とオブジェクト相互作用に関する因果推論を必要とする新しい視覚的質問応答データセットです。
10種類の仮想環境から3kビデオから生成される、38kビデオと質問ペアを含んでいる。
人間の認知心理学の分野における力のダイナミクスの理論に着想を得て,対象の意図を理解するための新しい質問カテゴリーを導入する。
- 参考スコア(独自算出の注目度): 11.078508605894411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Artificial Intelligence and deep learning have revived the
interest in studying the gap between the reasoning capabilities of humans and
machines. In this ongoing work, we introduce CRAFT, a new visual question
answering dataset that requires causal reasoning about physical forces and
object interactions. It contains 38K video and question pairs that are
generated from 3K videos from 10 different virtual environments, containing
different number of objects in motion that interact with each other. Two
question categories from CRAFT include previously studied descriptive and
counterfactual questions. Besides, inspired by the theory of force dynamics
from the field of human cognitive psychology, we introduce new question
categories that involve understanding the intentions of objects through the
notions of cause, enable, and prevent. Our preliminary results demonstrate that
even though these tasks are very intuitive for humans, the implemented
baselines could not cope with the underlying challenges.
- Abstract(参考訳): 人工知能とディープラーニングの最近の進歩は、人間と機械の推論能力のギャップを研究することへの関心を復活させた。
本研究は,身体力と物体の相互作用に関する因果推論を必要とする新しい視覚的質問応答データセットであるCRAFTを紹介する。
これには10の仮想環境から3Kビデオから生成される38Kビデオと質問ペアが含まれており、互いに対話するオブジェクトの数が異なる。
CRAFTの2つの質問カテゴリには、以前に研究された記述的質問と反事実的質問が含まれる。
また、人間の認知心理学の分野から力力学の理論に触発され、原因、有効化、予防という概念を通じて対象の意図を理解することを含む新しい質問カテゴリーを導入する。
予備的な結果は、これらのタスクが人間にとって非常に直感的であるにもかかわらず、実装されたベースラインは、基礎となる課題に対処できなかったことを示している。
関連論文リスト
- Compositional Physical Reasoning of Objects and Events from Videos [122.6862357340911]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。
我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。
また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文 参考訳(メタデータ) (2024-08-02T15:19:55Z) - Analyzing Human Questioning Behavior and Causal Curiosity through Natural Queries [91.70689724416698]
NatQuest(ナットクエスト)は、3つの異なるソースから自然発生の質問13,500件のコレクションである。
分析の結果,データセット内には因果的疑問(最大42%)が有意な存在であることが判明した。
論文 参考訳(メタデータ) (2024-05-30T17:55:28Z) - STAR: A Benchmark for Situated Reasoning in Real-World Videos [94.78038233351758]
本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。
データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。
本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
論文 参考訳(メタデータ) (2024-05-15T21:53:54Z) - BDIQA: A New Dataset for Video Question Answering to Explore Cognitive
Reasoning through Theory of Mind [21.806678376095576]
心の理論(ToM)は、AIをより人間の思考プロセスによく似ている。
ビデオ質問応答(Video QA)データセットは、人間のToMを真に取り入れたイベントの因果推論を研究することに焦点を当てている。
本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。
論文 参考訳(メタデータ) (2024-02-12T04:34:19Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - CLEVRER-Humans: Describing Physical and Causal Events the Human Way [55.44915246065028]
CLEVRER-Humansベンチマークは,人間ラベルを用いた物理的事象の因果判定のためのビデオデータセットである。
まず、ビデオ内のイベントを新たに表現するための、新しい反復的なイベントクローゼタスク、すなわち、Causal Event Graphs (CEGs) と呼ぶもので、第2に、ニューラルネットワーク生成モデルに基づくデータ拡張技術である。
論文 参考訳(メタデータ) (2023-10-05T16:09:48Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。
我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文 参考訳(メタデータ) (2021-08-08T10:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。