論文の概要: ComPhy: Compositional Physical Reasoning of Objects and Events from
Videos
- arxiv url: http://arxiv.org/abs/2205.01089v1
- Date: Mon, 2 May 2022 17:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 13:50:39.473016
- Title: ComPhy: Compositional Physical Reasoning of Objects and Events from
Videos
- Title(参考訳): ComPhy: ビデオからのオブジェクトとイベントの合成物理推論
- Authors: Zhenfang Chen, Kexin Yi, Yunzhu Li, Mingyu Ding, Antonio Torralba,
Joshua B. Tenenbaum, Chuang Gan
- Abstract要約: 目に見える性質と隠れた性質の間の構成性は、物理的な世界から推論するAIモデルに固有の課題をもたらす。
ビデオ推論に関する既存の研究は、主に物体の外観、動き、接触相互作用などの視覚的に観察可能な要素に焦点を当てている。
本稿では,視覚知覚,物理特性学習,動的予測,記号実行を組み合わせた,構成物理学学習(CPL)と呼ばれるオラクルニューラルシンボリックフレームワークを提案する。
- 参考スコア(独自算出の注目度): 113.2646904729092
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Objects' motions in nature are governed by complex interactions and their
properties. While some properties, such as shape and material, can be
identified via the object's visual appearances, others like mass and electric
charge are not directly visible. The compositionality between the visible and
hidden properties poses unique challenges for AI models to reason from the
physical world, whereas humans can effortlessly infer them with limited
observations. Existing studies on video reasoning mainly focus on visually
observable elements such as object appearance, movement, and contact
interaction. In this paper, we take an initial step to highlight the importance
of inferring the hidden physical properties not directly observable from visual
appearances, by introducing the Compositional Physical Reasoning (ComPhy)
dataset. For a given set of objects, ComPhy includes few videos of them moving
and interacting under different initial conditions. The model is evaluated
based on its capability to unravel the compositional hidden properties, such as
mass and charge, and use this knowledge to answer a set of questions posted on
one of the videos. Evaluation results of several state-of-the-art video
reasoning models on ComPhy show unsatisfactory performance as they fail to
capture these hidden properties. We further propose an oracle neural-symbolic
framework named Compositional Physics Learner (CPL), combining visual
perception, physical property learning, dynamic prediction, and symbolic
execution into a unified framework. CPL can effectively identify objects'
physical properties from their interactions and predict their dynamics to
answer questions.
- Abstract(参考訳): 自然界における物体の運動は、複雑な相互作用とその性質によって制御される。
形状や材料などのいくつかの特性は、物体の視覚的外観によって識別できるが、質量や電荷などの性質は直接見えるものではない。
可視性と隠れた性質の間の構成性は、AIモデルが物理的世界から推論する上で、ユニークな課題となる。
ビデオ推論に関する既存の研究は、主に物体の外観、動き、接触相互作用などの視覚的に観察可能な要素に焦点を当てている。
本稿では,合成的物理的推論(comphy)データセットを導入することで,視覚的な外観から直接観測できない隠れた物理的特性を推測することの重要性を強調する。
特定のオブジェクトセットに対して、ComPhyには、異なる初期条件の下で動き、相互作用するビデオがほとんどない。
このモデルは、質量や電荷などの構成的隠れた特性を解き放つ能力に基づいて評価され、この知識を使ってビデオの1つに投稿された一連の質問に答える。
ComPhyのいくつかの最先端ビデオ推論モデルの評価結果は、これらの隠された特性を捕捉できないため、不満足な性能を示す。
さらに,視覚知覚,物理特性学習,動的予測,記号実行を統合されたフレームワークに組み合わせた,構成物理学学習(CPL)と呼ばれるオラクルのニューラルシンボリックフレームワークを提案する。
CPLは、相互作用からオブジェクトの物理的特性を効果的に識別し、そのダイナミクスを予測して質問に答える。
関連論文リスト
- Compositional Physical Reasoning of Objects and Events from Videos [122.6862357340911]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。
我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。
また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文 参考訳(メタデータ) (2024-08-02T15:19:55Z) - Physical Property Understanding from Language-Embedded Feature Fields [27.151380830258603]
本稿では,画像の集合を用いて物体の物理的特性を高密度に予測する手法を提案する。
人間が視覚を通して物理学をどう考えるかに触発されて、我々は大きな言語モデルを活用して、各対象に対して候補となる材料を提案する。
我々の手法は正確で、アノテーションなしで、オープン世界のどんなオブジェクトにも適用できます。
論文 参考訳(メタデータ) (2024-04-05T17:45:07Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties
via Video Question Answering [50.61988087577871]
CRIPP-VQA(CRIPP-VQA)は、シーン内のオブジェクトの暗黙的な物理的特性を推論するための新しいビデオ質問応答データセットである。
CRIPP-VQAには、動作中の物体のビデオが含まれており、反事実的推論に関わる疑問が注がれている。
実験の結果,暗黙的特性に関する疑問に答える上で,驚くべき,重要なパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2022-11-07T18:55:26Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。