論文の概要: Physion++: Evaluating Physical Scene Understanding that Requires Online
Inference of Different Physical Properties
- arxiv url: http://arxiv.org/abs/2306.15668v1
- Date: Tue, 27 Jun 2023 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 12:13:48.642022
- Title: Physion++: Evaluating Physical Scene Understanding that Requires Online
Inference of Different Physical Properties
- Title(参考訳): physion++: 異なる物理的特性のオンライン推論を必要とする物理シーン理解の評価
- Authors: Hsiao-Yu Tung, Mingyu Ding, Zhenfang Chen, Daniel Bear, Chuang Gan,
Joshua B. Tenenbaum, Daniel LK Yamins, Judith E Fan, Kevin A. Smith
- Abstract要約: この研究は、人工システムにおける視覚的身体的予測を厳格に評価する新しいデータセットとベンチマークであるPhysylon++を提案する。
正確な予測が質量、摩擦、弾性、変形性などの特性の推定に依存するシナリオをテストする。
我々は,様々なレベルの学習と組込み知識にまたがる最先端予測モデルの性能を評価し,その性能を人間の予測と比較した。
- 参考スコア(独自算出の注目度): 83.92052755061579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General physical scene understanding requires more than simply localizing and
recognizing objects -- it requires knowledge that objects can have different
latent properties (e.g., mass or elasticity), and that those properties affect
the outcome of physical events. While there has been great progress in physical
and video prediction models in recent years, benchmarks to test their
performance typically do not require an understanding that objects have
individual physical properties, or at best test only those properties that are
directly observable (e.g., size or color). This work proposes a novel dataset
and benchmark, termed Physion++, that rigorously evaluates visual physical
prediction in artificial systems under circumstances where those predictions
rely on accurate estimates of the latent physical properties of objects in the
scene. Specifically, we test scenarios where accurate prediction relies on
estimates of properties such as mass, friction, elasticity, and deformability,
and where the values of those properties can only be inferred by observing how
objects move and interact with other objects or fluids. We evaluate the
performance of a number of state-of-the-art prediction models that span a
variety of levels of learning vs. built-in knowledge, and compare that
performance to a set of human predictions. We find that models that have been
trained using standard regimes and datasets do not spontaneously learn to make
inferences about latent properties, but also that models that encode objectness
and physical states tend to make better predictions. However, there is still a
huge gap between all models and human performance, and all models' predictions
correlate poorly with those made by humans, suggesting that no state-of-the-art
model is learning to make physical predictions in a human-like way. Project
page: https://dingmyu.github.io/physion_v2/
- Abstract(参考訳): 一般的な物理的シーン理解には、単にオブジェクトのローカライズと認識以上のものが必要です -- オブジェクトが異なる潜在性(例えば、質量や弾性)を持つことができ、それらの特性が物理的なイベントの結果に影響を与えるという知識が必要です。
近年、物理的およびビデオ予測モデルには大きな進歩があったが、パフォーマンスをテストするベンチマークは通常、オブジェクトが個々の物理的特性を持っていることを理解する必要はなく、最善の試験は直接観測可能な特性(サイズや色など)のみである。
この研究は、これらの予測がシーン内のオブジェクトの潜伏する物理的特性の正確な推定に依存する状況下で、人工システムにおける視覚的物理的予測を厳格に評価する新しいデータセットとベンチマークであるPhyllion++を提案する。
具体的には、正確な予測が質量、摩擦、弾性、変形性などの特性の推定に依存する場合と、物体が他の物体や流体とどのように動いたり相互作用したりするかを観察して、それらの特性の値を推測できる場合のシナリオをテストする。
我々は,様々なレベルの学習と組込み知識にまたがる最先端予測モデルの性能を評価し,その性能を人間の予測と比較した。
標準規則とデータセットを用いてトレーニングされたモデルは、潜在特性に関する推論を自発的に学習するだけでなく、対象性と物理的状態を符号化するモデルはより良い予測を行う傾向にある。
しかし、すべてのモデルと人間のパフォーマンスの間には依然として大きなギャップがあり、全てのモデルの予測は人間の予測と不相関であり、最先端のモデルが人間のように物理的な予測をすることを学んでいないことを示唆している。
プロジェクトページ: https://dingmyu.github.io/physion_v2/
関連論文リスト
- Compositional Physical Reasoning of Objects and Events from Videos [122.6862357340911]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。
我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。
また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文 参考訳(メタデータ) (2024-08-02T15:19:55Z) - Physical Property Understanding from Language-Embedded Feature Fields [27.151380830258603]
本稿では,画像の集合を用いて物体の物理的特性を高密度に予測する手法を提案する。
人間が視覚を通して物理学をどう考えるかに触発されて、我々は大きな言語モデルを活用して、各対象に対して候補となる材料を提案する。
我々の手法は正確で、アノテーションなしで、オープン世界のどんなオブジェクトにも適用できます。
論文 参考訳(メタデータ) (2024-04-05T17:45:07Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - ComPhy: Compositional Physical Reasoning of Objects and Events from
Videos [113.2646904729092]
目に見える性質と隠れた性質の間の構成性は、物理的な世界から推論するAIモデルに固有の課題をもたらす。
ビデオ推論に関する既存の研究は、主に物体の外観、動き、接触相互作用などの視覚的に観察可能な要素に焦点を当てている。
本稿では,視覚知覚,物理特性学習,動的予測,記号実行を組み合わせた,構成物理学学習(CPL)と呼ばれるオラクルニューラルシンボリックフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-02T17:59:13Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。