論文の概要: 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes
- arxiv url: http://arxiv.org/abs/2304.11470v1
- Date: Sat, 22 Apr 2023 19:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 18:09:16.455146
- Title: 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes
- Title(参考訳): 3d-intphys:より一般化した3dグラウンド視覚直感物理への挑戦
- Authors: Haotian Xue, Antonio Torralba, Joshua B. Tenenbaum, Daniel LK Yamins,
Yunzhu Li, Hsiao-Yu Tung
- Abstract要約: 複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
- 参考スコア(独自算出の注目度): 68.66237114509264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a visual scene, humans have strong intuitions about how a scene can
evolve over time under given actions. The intuition, often termed visual
intuitive physics, is a critical ability that allows us to make effective plans
to manipulate the scene to achieve desired outcomes without relying on
extensive trial and error. In this paper, we present a framework capable of
learning 3D-grounded visual intuitive physics models from videos of complex
scenes with fluids. Our method is composed of a conditional Neural Radiance
Field (NeRF)-style visual frontend and a 3D point-based dynamics prediction
backend, using which we can impose strong relational and structural inductive
bias to capture the structure of the underlying environment. Unlike existing
intuitive point-based dynamics works that rely on the supervision of dense
point trajectory from simulators, we relax the requirements and only assume
access to multi-view RGB images and (imperfect) instance masks acquired using
color prior. This enables the proposed model to handle scenarios where accurate
point estimation and tracking are hard or impossible. We generate datasets
including three challenging scenarios involving fluid, granular materials, and
rigid objects in the simulation. The datasets do not include any dense particle
information so most previous 3D-based intuitive physics pipelines can barely
deal with that. We show our model can make long-horizon future predictions by
learning from raw images and significantly outperforms models that do not
employ an explicit 3D representation space. We also show that once trained, our
model can achieve strong generalization in complex scenarios under extrapolate
settings.
- Abstract(参考訳): 視覚的なシーンが与えられた場合、人間は与えられた行動の下でシーンがどのように進化するかについて強い直感を持つ。
直感は、しばしば視覚的直感的物理学と呼ばれ、広範囲な試行錯誤に頼ることなく、望ましい結果を達成するためにシーンを操作する効果的な計画を作ることができる重要な能力である。
本稿では,流体を伴う複雑なシーンの映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
提案手法は, 条件付きニューラルラジアンスフィールド(NeRF)方式の視覚フロントエンドと3次元ポイントベースダイナミックス予測バックエンドで構成され, 基礎環境の構造を捉えるために, 強いリレーショナルおよび構造的帰納バイアスを課すことができる。
シミュレータからの高密度な点軌道の監督に依存する既存の直感的な点ベースダイナミクスとは違って、我々は要求を緩和し、複数ビューのRGB画像や(不完全な)インスタンスマスクへのアクセスのみを前提としている。
これにより、正確な点推定と追跡が困難あるいは不可能なシナリオを扱うことができる。
シミュレーションで流体, 粒状物質, 固形物を含む3つの挑戦シナリオを含むデータセットを生成する。
データセットには密集した粒子情報が含まれないため、従来の3dベースの直感的な物理パイプラインはほとんどそれに対応できない。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
また,トレーニングを済ませば,外挿条件下での複雑なシナリオにおいて,モデルが強力な一般化を実現することを示す。
関連論文リスト
- Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - Learning 3D Particle-based Simulators from RGB-D Videos [15.683877597215494]
本研究では,シミュレータを直接観測から学習する手法を提案する。
視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現を共同で学習する。
既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。
論文 参考訳(メタデータ) (2023-12-08T20:45:34Z) - 3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for
Robust 6D Pose Estimation [50.15926681475939]
逆グラフィックスは2次元画像から3次元シーン構造を推論することを目的としている。
確率モデルを導入し,不確実性を定量化し,6次元ポーズ推定タスクにおけるロバスト性を実現する。
3DNELは、RGBから学んだニューラルネットワークの埋め込みと深度情報を組み合わせることで、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-02-07T20:48:35Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。