論文の概要: CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions
- arxiv url: http://arxiv.org/abs/2012.04293v1
- Date: Tue, 8 Dec 2020 09:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 17:49:32.683651
- Title: CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions
- Title(参考訳): CRAFT: 力と非作用に関する因果関係のベンチマーク
- Authors: Tayfun Ates, Muhammed Samil Atesoglu, Cagatay Yigit, Ilker Kesen, Mert
Kobas, Erkut Erdem, Aykut Erdem, Tilbe Goksun, Deniz Yuret
- Abstract要約: CRAFTは、物理的力とオブジェクト相互作用に関する因果推論を必要とする新しい視覚的質問応答データセットです。
10種類の仮想環境から3kビデオから生成される、38kビデオと質問ペアを含んでいる。
人間の認知心理学の分野における力のダイナミクスの理論に着想を得て,対象の意図を理解するための新しい質問カテゴリーを導入する。
- 参考スコア(独自算出の注目度): 11.078508605894411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Artificial Intelligence and deep learning have revived the
interest in studying the gap between the reasoning capabilities of humans and
machines. In this ongoing work, we introduce CRAFT, a new visual question
answering dataset that requires causal reasoning about physical forces and
object interactions. It contains 38K video and question pairs that are
generated from 3K videos from 10 different virtual environments, containing
different number of objects in motion that interact with each other. Two
question categories from CRAFT include previously studied descriptive and
counterfactual questions. Besides, inspired by the theory of force dynamics
from the field of human cognitive psychology, we introduce new question
categories that involve understanding the intentions of objects through the
notions of cause, enable, and prevent. Our preliminary results demonstrate that
even though these tasks are very intuitive for humans, the implemented
baselines could not cope with the underlying challenges.
- Abstract(参考訳): 人工知能とディープラーニングの最近の進歩は、人間と機械の推論能力のギャップを研究することへの関心を復活させた。
本研究は,身体力と物体の相互作用に関する因果推論を必要とする新しい視覚的質問応答データセットであるCRAFTを紹介する。
これには10の仮想環境から3Kビデオから生成される38Kビデオと質問ペアが含まれており、互いに対話するオブジェクトの数が異なる。
CRAFTの2つの質問カテゴリには、以前に研究された記述的質問と反事実的質問が含まれる。
また、人間の認知心理学の分野から力力学の理論に触発され、原因、有効化、予防という概念を通じて対象の意図を理解することを含む新しい質問カテゴリーを導入する。
予備的な結果は、これらのタスクが人間にとって非常に直感的であるにもかかわらず、実装されたベースラインは、基礎となる課題に対処できなかったことを示している。
関連論文リスト
- BDIQA: A New Dataset for Video Question Answering to Explore Cognitive
Reasoning through Theory of Mind [21.806678376095576]
心の理論(ToM)は、AIをより人間の思考プロセスによく似ている。
ビデオ質問応答(Video QA)データセットは、人間のToMを真に取り入れたイベントの因果推論を研究することに焦点を当てている。
本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。
論文 参考訳(メタデータ) (2024-02-12T04:34:19Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - CLEVRER-Humans: Describing Physical and Causal Events the Human Way [55.44915246065028]
CLEVRER-Humansベンチマークは,人間ラベルを用いた物理的事象の因果判定のためのビデオデータセットである。
まず、ビデオ内のイベントを新たに表現するための、新しい反復的なイベントクローゼタスク、すなわち、Causal Event Graphs (CEGs) と呼ぶもので、第2に、ニューラルネットワーク生成モデルに基づくデータ拡張技術である。
論文 参考訳(メタデータ) (2023-10-05T16:09:48Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。
我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文 参考訳(メタデータ) (2021-08-08T10:46:53Z) - PROST: Physical Reasoning of Objects through Space and Time [68.69796589964076]
このデータセットには、14のテンプレートを手作業でキュレートした18,736の多重選択質問が含まれている。
我々は、最先端の事前学習モデルが物理的推論において不十分であることを示す分析を行う。
論文 参考訳(メタデータ) (2021-06-07T14:06:20Z) - Use the Force, Luke! Learning to Predict Physical Forces by Simulating
Effects [79.351446087227]
物体と相互作用する人間の映像から接触点と物理的力の推測の問題に対処する。
具体的には、シミュレーションを用いて効果を予測し、推定された力がビデオに描かれたものと同じ効果をもたらすことを強制する。
論文 参考訳(メタデータ) (2020-03-26T17:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。