論文の概要: Learning 3D Particle-based Simulators from RGB-D Videos
- arxiv url: http://arxiv.org/abs/2312.05359v1
- Date: Fri, 8 Dec 2023 20:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:22:43.156015
- Title: Learning 3D Particle-based Simulators from RGB-D Videos
- Title(参考訳): RGB-Dビデオによる3次元粒子シミュレーションの学習
- Authors: William F. Whitney, Tatiana Lopez-Guevara, Tobias Pfaff, Yulia
Rubanova, Thomas Kipf, Kimberly Stachenfeld, Kelsey R. Allen
- Abstract要約: 本研究では,シミュレータを直接観測から学習する手法を提案する。
視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現を共同で学習する。
既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。
- 参考スコア(独自算出の注目度): 15.683877597215494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic simulation is critical for applications ranging from robotics to
animation. Traditional analytic simulators sometimes struggle to capture
sufficiently realistic simulation which can lead to problems including the well
known "sim-to-real" gap in robotics. Learned simulators have emerged as an
alternative for better capturing real-world physical dynamics, but require
access to privileged ground truth physics information such as precise object
geometry or particle tracks. Here we propose a method for learning simulators
directly from observations. Visual Particle Dynamics (VPD) jointly learns a
latent particle-based representation of 3D scenes, a neural simulator of the
latent particle dynamics, and a renderer that can produce images of the scene
from arbitrary views. VPD learns end to end from posed RGB-D videos and does
not require access to privileged information. Unlike existing 2D video
prediction models, we show that VPD's 3D structure enables scene editing and
long-term predictions. These results pave the way for downstream applications
ranging from video editing to robotic planning.
- Abstract(参考訳): ロボット工学からアニメーションまで、応用には現実的なシミュレーションが不可欠である。
従来の解析シミュレータは、ロボット工学におけるよく知られた"sim-to-real"ギャップなどの問題につながる、十分に現実的なシミュレーションを捉えるのに苦労することがある。
学習シミュレータは、現実世界の物理力学をより正確に捉えるための代替手段として登場したが、精密な物体幾何学や粒子軌道のような特権的な基底物理情報にアクセスする必要がある。
本稿では,観測からシミュレータを直接学習する手法を提案する。
視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現、潜粒子ダイナミクスのニューラルシミュレータ、任意のビューからシーンの画像を生成するレンダラーを共同で学習する。
VPDは、提示されたRGB-Dビデオからエンドツーエンドを学習し、特権情報へのアクセスを必要としない。
既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。
これらの結果は、ビデオ編集からロボット計画まで、下流のアプリケーションへの道を開いた。
関連論文リスト
- Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling [10.247075501610492]
マルチビューRGBビデオからオブジェクトダイナミクスを直接学習するフレームワークを導入する。
グラフニューラルネットワークを用いて粒子ベース力学モデルを訓練する。
本手法は,初期設定の異なる物体の動きやロボットの動作を予測できる。
論文 参考訳(メタデータ) (2024-10-24T17:02:52Z) - DreamPhysics: Learning Physical Properties of Dynamic 3D Gaussians with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - Scaling Face Interaction Graph Networks to Real World Scenes [12.519862235430153]
本稿では,グラフベースの学習シミュレータの実行に必要なメモリを大幅に削減する手法を提案する。
提案手法は,従来のグラフベースシミュレータに比べて,精度を保ちながらメモリ使用量が大幅に少ないことを示す。
これにより、学習したシミュレータの応用を、推論時に知覚情報しか利用できない設定に拡張する道が開ける。
論文 参考訳(メタデータ) (2024-01-22T14:38:25Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。