論文の概要: Compositional Physical Reasoning of Objects and Events from Videos
- arxiv url: http://arxiv.org/abs/2408.02687v1
- Date: Fri, 2 Aug 2024 15:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 16:17:55.142522
- Title: Compositional Physical Reasoning of Objects and Events from Videos
- Title(参考訳): 映像からの物体・事象の合成物理推論
- Authors: Zhenfang Chen, Shilong Dong, Kexin Yi, Yunzhu Li, Mingyu Ding, Antonio Torralba, Joshua B. Tenenbaum, Chuang Gan,
- Abstract要約: 本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。
我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。
また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
- 参考スコア(独自算出の注目度): 122.6862357340911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and reasoning about objects' physical properties in the natural world is a fundamental challenge in artificial intelligence. While some properties like colors and shapes can be directly observed, others, such as mass and electric charge, are hidden from the objects' visual appearance. This paper addresses the unique challenge of inferring these hidden physical properties from objects' motion and interactions and predicting corresponding dynamics based on the inferred physical properties. We first introduce the Compositional Physical Reasoning (ComPhy) dataset. For a given set of objects, ComPhy includes limited videos of them moving and interacting under different initial conditions. The model is evaluated based on its capability to unravel the compositional hidden properties, such as mass and charge, and use this knowledge to answer a set of questions. Besides the synthetic videos from simulators, we also collect a real-world dataset to show further test physical reasoning abilities of different models. We evaluate state-of-the-art video reasoning models on ComPhy and reveal their limited ability to capture these hidden properties, which leads to inferior performance. We also propose a novel neuro-symbolic framework, Physical Concept Reasoner (PCR), that learns and reasons about both visible and hidden physical properties from question answering. After training, PCR demonstrates remarkable capabilities. It can detect and associate objects across frames, ground visible and hidden physical properties, make future and counterfactual predictions, and utilize these extracted representations to answer challenging questions.
- Abstract(参考訳): 自然界における物体の物理的性質の理解と推論は、人工知能における根本的な課題である。
色や形状などのいくつかの特性は直接観察できるが、質量や電荷などの他の特性は、物体の視覚的な外観から隠されている。
本稿では、物体の運動と相互作用からこれらの隠れた物理的特性を推定し、推定された物理的特性に基づいて対応する力学を予測するというユニークな課題に対処する。
まず,コンポジション物理推論(ComPhy)データセットを紹介する。
与えられたオブジェクトのセットに対して、ComPhyは、異なる初期条件下で動いたり相互作用したりした、限られたビデオを含んでいる。
このモデルは、質量や電荷などの構成的隠れた特性を解き放つ能力に基づいて評価され、この知識を用いて一連の疑問に答える。
シミュレータの合成ビデオの他に、実世界のデータセットを収集し、異なるモデルの物理的推論能力をテストする。
我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする能力に制限があることを明らかにし、性能が低下することを示した。
また,視覚的および隠れた物理的特性を質問応答から学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
訓練後、PCRは顕著な能力を示す。
フレームをまたいでオブジェクトを検出し、関連付けることができ、視覚的および隠れた物理的特性を検知し、未来と反現実的な予測を行い、これらの抽出された表現を使って挑戦的な質問に答える。
関連論文リスト
- Physical Property Understanding from Language-Embedded Feature Fields [27.151380830258603]
本稿では,画像の集合を用いて物体の物理的特性を高密度に予測する手法を提案する。
人間が視覚を通して物理学をどう考えるかに触発されて、我々は大きな言語モデルを活用して、各対象に対して候補となる材料を提案する。
我々の手法は正確で、アノテーションなしで、オープン世界のどんなオブジェクトにも適用できます。
論文 参考訳(メタデータ) (2024-04-05T17:45:07Z) - Physion++: Evaluating Physical Scene Understanding that Requires Online
Inference of Different Physical Properties [100.19685489335828]
この研究は、人工システムにおける視覚的身体的予測を厳格に評価する新しいデータセットとベンチマークであるPhysylon++を提案する。
正確な予測が質量、摩擦、弾性、変形性などの特性の推定に依存するシナリオをテストする。
我々は,様々なレベルの学習と組込み知識にまたがる最先端予測モデルの性能を評価し,その性能を人間の予測と比較した。
論文 参考訳(メタデータ) (2023-06-27T17:59:33Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties
via Video Question Answering [50.61988087577871]
CRIPP-VQA(CRIPP-VQA)は、シーン内のオブジェクトの暗黙的な物理的特性を推論するための新しいビデオ質問応答データセットである。
CRIPP-VQAには、動作中の物体のビデオが含まれており、反事実的推論に関わる疑問が注がれている。
実験の結果,暗黙的特性に関する疑問に答える上で,驚くべき,重要なパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2022-11-07T18:55:26Z) - ComPhy: Compositional Physical Reasoning of Objects and Events from
Videos [113.2646904729092]
目に見える性質と隠れた性質の間の構成性は、物理的な世界から推論するAIモデルに固有の課題をもたらす。
ビデオ推論に関する既存の研究は、主に物体の外観、動き、接触相互作用などの視覚的に観察可能な要素に焦点を当てている。
本稿では,視覚知覚,物理特性学習,動的予測,記号実行を組み合わせた,構成物理学学習(CPL)と呼ばれるオラクルニューラルシンボリックフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-02T17:59:13Z) - Curiosity-driven Intuitive Physics Learning [0.0]
実世界のAIエージェントに対する好奇心駆動学習と推論のモデルを提案する。
このモデルは好奇心の喚起に基づくもので、基本的なマクロ固体物理パラメータの不連続性に関する観測から導かれる。
このモデルは、ドメインに関係なく、ゼロから学習のエミュレーションと経験による実証を支援することを目的としています。
論文 参考訳(メタデータ) (2021-05-16T12:58:05Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。