論文の概要: Learning 3D Dynamic Scene Representations for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2011.01968v2
- Date: Thu, 10 Dec 2020 16:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 05:56:16.428002
- Title: Learning 3D Dynamic Scene Representations for Robot Manipulation
- Title(参考訳): ロボット操作のための3次元動的シーン表現の学習
- Authors: Zhenjia Xu, Zhanpeng He, Jiajun Wu, Shuran Song
- Abstract要約: ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。
本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。
本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
- 参考スコア(独自算出の注目度): 21.6131570689398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene representation for robot manipulation should capture three key
object properties: permanency -- objects that become occluded over time
continue to exist; amodal completeness -- objects have 3D occupancy, even if
only partial observations are available; spatiotemporal continuity -- the
movement of each object is continuous over space and time. In this paper, we
introduce 3D Dynamic Scene Representation (DSR), a 3D volumetric scene
representation that simultaneously discovers, tracks, reconstructs objects, and
predicts their dynamics while capturing all three properties. We further
propose DSR-Net, which learns to aggregate visual observations over multiple
interactions to gradually build and refine DSR. Our model achieves
state-of-the-art performance in modeling 3D scene dynamics with DSR on both
simulated and real data. Combined with model predictive control, DSR-Net
enables accurate planning in downstream robotic manipulation tasks such as
planar pushing. Video is available at https://youtu.be/GQjYG3nQJ80.
- Abstract(参考訳): ロボット操作のための3Dシーン表現は、3つの重要なオブジェクト特性をキャプチャする必要がある: 永続性 -- 時間が経つにつれて隠蔽されるオブジェクト - モーダル完全性 -- オブジェクトは部分的な観察しかできない場合でも3D占有力を持つ。
本稿では,3つの特性を同時に検出し,追跡し,再構成する3次元ボリュームシーン表現である3次元ダイナミックシーン表現(DSR)を紹介する。
さらにDSR-Netを提案する。DSRを徐々に構築・洗練するために、複数の相互作用を通して視覚的観察を集約することを学ぶ。
シミュレーションデータと実データの両方でDSRを用いた3次元シーンダイナミクスのモデリングにおける最先端性能を実現する。
DSR-Netはモデル予測制御と組み合わせて、平面プッシュのような下流ロボット操作タスクの正確な計画を可能にする。
ビデオはhttps://youtu.be/gqjyg3nqj80で閲覧できる。
関連論文リスト
- SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。