論文の概要: Learning Multi-Object Dynamics with Compositional Neural Radiance Fields
- arxiv url: http://arxiv.org/abs/2202.11855v1
- Date: Thu, 24 Feb 2022 01:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:35:19.261621
- Title: Learning Multi-Object Dynamics with Compositional Neural Radiance Fields
- Title(参考訳): 合成ニューラルラミアンス場を用いたマルチオブジェクトダイナミクスの学習
- Authors: Danny Driess, Zhiao Huang, Yunzhu Li, Russ Tedrake, Marc Toussaint
- Abstract要約: 本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
- 参考スコア(独自算出の注目度): 63.424469458529906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method to learn compositional predictive models from image
observations based on implicit object encoders, Neural Radiance Fields (NeRFs),
and graph neural networks. A central question in learning dynamic models from
sensor observations is on which representations predictions should be
performed. NeRFs have become a popular choice for representing scenes due to
their strong 3D prior. However, most NeRF approaches are trained on a single
scene, representing the whole scene with a global model, making generalization
to novel scenes, containing different numbers of objects, challenging. Instead,
we present a compositional, object-centric auto-encoder framework that maps
multiple views of the scene to a \emph{set} of latent vectors representing each
object separately. The latent vectors parameterize individual NeRF models from
which the scene can be reconstructed and rendered from novel viewpoints. We
train a graph neural network dynamics model in the latent space to achieve
compositionality for dynamics prediction. A key feature of our approach is that
the learned 3D information of the scene through the NeRF model enables us to
incorporate structural priors in learning the dynamics models, making long-term
predictions more stable. The model can further be used to synthesize new scenes
from individual object observations. For planning, we utilize RRTs in the
learned latent space, where we can exploit our model and the implicit object
encoder to make sampling the latent space informative and more efficient. In
the experiments, we show that the model outperforms several baselines on a
pushing task containing many objects. Video:
https://dannydriess.github.io/compnerfdyn/
- Abstract(参考訳): 本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
センサ観測から動的モデルを学習する際の中心的な疑問は、どの表現予測を行うべきかである。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
しかし、ほとんどのnerfアプローチは単一のシーンで訓練され、全シーンをグローバルモデルで表現し、異なる数のオブジェクトを含む斬新なシーンに一般化し、挑戦する。
代わりに、シーンの複数のビューを各オブジェクトを表す潜在ベクトルの \emph{set} にマップする構成的、オブジェクト中心のオートエンコーダフレームワークを提案する。
潜在ベクトルは、シーンを再構成し、新しい視点からレンダリングできる個々のNeRFモデルをパラメータ化する。
我々は,潜在空間におけるグラフニューラルネットワークダイナミクスモデルを訓練し,動的予測のための合成性を実現する。
提案手法の重要な特徴は,NeRFモデルによるシーンの学習3次元情報により,動的モデルの学習における構造的先行情報を組み込むことで,長期的予測をより安定させることができることである。
このモデルは、個々のオブジェクトの観察から新しいシーンを合成するためにさらに使用できる。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
実験では,多数のオブジェクトを含むプッシュタスクにおいて,モデルが複数のベースラインを上回っていることを示す。
ビデオ: https://dannydriess.github.io/compnerfdyn/
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - NSLF-OL: Online Learning of Neural Surface Light Fields alongside
Real-time Incremental 3D Reconstruction [0.76146285961466]
そこで本研究では,視線方向の小さな方向に対応できるニューラルサーフェス光場モデルを提案する。
我々のモデルは、リアルタイムな3次元再構成の他に、シーケンシャルなデータストリームを共有入力として、ニューラルネットワーク光場(NSLF)をオンラインで学習する。
オンライントレーニングに加えて、可視化のためにデータストリームを完了した後のリアルタイムレンダリングも提供する。
論文 参考訳(メタデータ) (2023-04-29T15:41:15Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。