論文の概要: Physion: Evaluating Physical Prediction from Vision in Humans and
Machines
- arxiv url: http://arxiv.org/abs/2106.08261v2
- Date: Thu, 17 Jun 2021 17:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 11:23:49.223546
- Title: Physion: Evaluating Physical Prediction from Vision in Humans and
Machines
- Title(参考訳): 生理学:人間と機械の視覚から物理予測を評価する
- Authors: Daniel M. Bear, Elias Wang, Damian Mrowca, Felix J. Binder, Hsiau-Yu
Fish Tung, R.T. Pramod, Cameron Holdaway, Sirui Tao, Kevin Smith, Fan-Yun
Sun, Li Fei-Fei, Nancy Kanwisher, Joshua B. Tenenbaum, Daniel L.K. Yamins,
Judith E. Fan
- Abstract要約: 我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
- 参考スコア(独自算出の注目度): 46.19008633309041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While machine learning algorithms excel at many challenging visual tasks, it
is unclear that they can make predictions about commonplace real world physical
events. Here, we present a visual and physical prediction benchmark that
precisely measures this capability. In realistically simulating a wide variety
of physical phenomena -- rigid and soft-body collisions, stable multi-object
configurations, rolling and sliding, projectile motion -- our dataset presents
a more comprehensive challenge than existing benchmarks. Moreover, we have
collected human responses for our stimuli so that model predictions can be
directly compared to human judgments. We compare an array of algorithms --
varying in their architecture, learning objective, input-output structure, and
training data -- on their ability to make diverse physical predictions. We find
that graph neural networks with access to the physical state best capture human
behavior, whereas among models that receive only visual input, those with
object-centric representations or pretraining do best but fall far short of
human accuracy. This suggests that extracting physically meaningful
representations of scenes is the main bottleneck to achieving human-like visual
prediction. We thus demonstrate how our benchmark can identify areas for
improvement and measure progress on this key aspect of physical understanding.
- Abstract(参考訳): 機械学習アルゴリズムは、多くの難易度の高いビジュアルタスクに優れているが、現実世界の物理イベントの共通点を予測できるかどうかは不明だ。
本稿では,この性能を正確に測定する視覚的および物理的予測ベンチマークを提案する。
剛体とソフトボディの衝突、安定したマルチオブジェクト構成、ローリングとスライディング、投射運動など、さまざまな物理現象を現実的にシミュレートする私たちのデータセットは、既存のベンチマークよりも包括的な課題を提示しています。
さらに,人間の判断とモデル予測を直接比較できるように,刺激に対する人間の反応を収集した。
アーキテクチャや学習目標,入力出力構造,トレーニングデータなど,さまざまな物理予測を行うアルゴリズムの配列を比較した。
物理状態にアクセス可能なグラフニューラルネットワークが人間の行動を最もよく捉えているのに対して、視覚的な入力のみを受け取るモデルでは、オブジェクト中心の表現や事前学習が最善であるが、人間の正確性には程遠い。
これは、シーンの物理的に意味のある表現を抽出することが、人間のような視覚的予測を達成するための主要なボトルネックであることを示している。
したがって、この物理理解の重要な側面において、我々のベンチマークが改善の領域を特定し、進捗を測定する方法を実証する。
関連論文リスト
- Identifying Terrain Physical Parameters from Vision -- Towards Physical-Parameter-Aware Locomotion and Navigation [33.10872127224328]
視覚に基づく環境パラメータ推定のためのクロスモーダルな自己教師型学習フレームワークを提案する。
我々は物理デコーダをシミュレーションで訓練し、マルチモーダル入力から摩擦と剛性を予測した。
トレーニングされたネットワークは、物理的なパラメータを持つ現実世界のイメージのラベル付けを可能にし、デプロイ中にビジュアルネットワークをさらにトレーニングする。
論文 参考訳(メタデータ) (2024-08-29T14:35:14Z) - Physion++: Evaluating Physical Scene Understanding that Requires Online
Inference of Different Physical Properties [100.19685489335828]
この研究は、人工システムにおける視覚的身体的予測を厳格に評価する新しいデータセットとベンチマークであるPhysylon++を提案する。
正確な予測が質量、摩擦、弾性、変形性などの特性の推定に依存するシナリオをテストする。
我々は,様々なレベルの学習と組込み知識にまたがる最先端予測モデルの性能を評価し,その性能を人間の予測と比較した。
論文 参考訳(メタデータ) (2023-06-27T17:59:33Z) - Neural Foundations of Mental Simulation: Future Prediction of Latent
Representations on Dynamic Scenes [3.2744507958793143]
我々は、目標駆動型モデリングアプローチと高密度神経生理学的データと人間の行動的読み出しを組み合わせることで、この問題を阻害する。
具体的には,豊かで倫理的に関連のある環境の将来の状態を予測するために,知覚認知ネットワークのいくつかのクラスを構築し,評価する。
これらのモデルクラス間での強い差別化は、さまざまな環境内と環境内の両方で、神経的および行動的データを予測できる能力である。
論文 参考訳(メタデータ) (2023-05-19T15:56:06Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。