論文の概要: 3D Neural Scene Representations for Visuomotor Control
- arxiv url: http://arxiv.org/abs/2107.04004v1
- Date: Thu, 8 Jul 2021 17:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 13:40:34.357125
- Title: 3D Neural Scene Representations for Visuomotor Control
- Title(参考訳): visuomotor制御のための3次元ニューラルシーン表現
- Authors: Yunzhu Li, Shuang Li, Vincent Sitzmann, Pulkit Agrawal, Antonio
Torralba
- Abstract要約: 我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
- 参考スコア(独自算出の注目度): 78.79583457239836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans have a strong intuitive understanding of the 3D environment around us.
The mental model of the physics in our brain applies to objects of different
materials and enables us to perform a wide range of manipulation tasks that are
far beyond the reach of current robots. In this work, we desire to learn models
for dynamic 3D scenes purely from 2D visual observations. Our model combines
Neural Radiance Fields (NeRF) and time contrastive learning with an
autoencoding framework, which learns viewpoint-invariant 3D-aware scene
representations. We show that a dynamics model, constructed over the learned
representation space, enables visuomotor control for challenging manipulation
tasks involving both rigid bodies and fluids, where the target is specified in
a viewpoint different from what the robot operates on. When coupled with an
auto-decoding framework, it can even support goal specification from camera
viewpoints that are outside the training distribution. We further demonstrate
the richness of the learned 3D dynamics model by performing future prediction
and novel view synthesis. Finally, we provide detailed ablation studies
regarding different system designs and qualitative analysis of the learned
representations.
- Abstract(参考訳): 人間は周囲の3d環境を直感的に理解している。
脳の物理学のメンタルモデルは、さまざまな素材のオブジェクトに適用され、現在のロボットの到達範囲をはるかに超える幅広い操作タスクを実行できる。
本研究では,2次元視覚観測から動的3次元シーンのモデルを純粋に学習したい。
本モデルでは,ニューラルラジアンス場(NeRF)と時間コントラスト学習と,視点不変の3次元シーン表現を学習する自動符号化フレームワークを組み合わせる。
学習した表現空間上に構築されたダイナミックスモデルにより,ロボットの動作と異なる視点で目標が特定される剛体と流体の両方を含む操作課題に対して,ビジュモータ制御が可能であることを示す。
自動デコーディングフレームワークと組み合わせることで、トレーニングディストリビューションの外にあるカメラの視点から目標仕様をサポートすることもできる。
さらに,今後の予測と新たな視点合成を行い,学習した3次元ダイナミクスモデルの豊かさを実証する。
最後に,異なるシステム設計と学習表現の質的分析に関する詳細なアブレーション研究を行う。
関連論文リスト
- Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling [10.247075501610492]
マルチビューRGBビデオからオブジェクトダイナミクスを直接学習するフレームワークを導入する。
グラフニューラルネットワークを用いて粒子ベース力学モデルを訓練する。
本手法は,初期設定の異なる物体の動きやロボットの動作を予測できる。
論文 参考訳(メタデータ) (2024-10-24T17:02:52Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - Learning 3D Dynamic Scene Representations for Robot Manipulation [21.6131570689398]
ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。
本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。
本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
論文 参考訳(メタデータ) (2020-11-03T19:23:06Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。