論文の概要: 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators
- arxiv url: http://arxiv.org/abs/2011.06464v1
- Date: Thu, 12 Nov 2020 16:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 06:14:28.212426
- Title: 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators
- Title(参考訳): 3D-OES:ビューポイント不変オブジェクト指向環境シミュレータ
- Authors: Hsiao-Yu Fish Tung, Zhou Xian, Mihir Prabhudesai, Shamit Lal, Katerina
Fragkiadaki
- Abstract要約: 本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
- 参考スコア(独自算出の注目度): 24.181604511269096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an action-conditioned dynamics model that predicts scene changes
caused by object and agent interactions in a viewpoint-invariant 3D neural
scene representation space, inferred from RGB-D videos. In this 3D feature
space, objects do not interfere with one another and their appearance persists
over time and across viewpoints. This permits our model to predict future
scenes long in the future by simply "moving" 3D object features based on
cumulative object motion predictions. Object motion predictions are computed by
a graph neural network that operates over the object features extracted from
the 3D neural scene representation. Our model's simulations can be decoded by a
neural renderer into2D image views from any desired viewpoint, which aids the
interpretability of our latent 3D simulation space. We show our model
generalizes well its predictions across varying number and appearances of
interacting objects as well as across camera viewpoints, outperforming existing
2D and 3D dynamics models. We further demonstrate sim-to-real transfer of the
learnt dynamics by applying our model trained solely in simulation to
model-based control for pushing objects to desired locations under clutter on a
real robotic setup
- Abstract(参考訳): rgb-dビデオから推定した視点不変な3次元ニューラルネットワークシーン表現空間において,物体とエージェントの相互作用によるシーン変化を予測するアクションコンディショルドダイナミクスモデルを提案する。
この3D特徴空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
これにより、累積物体の動き予測に基づいて3次元オブジェクトの特徴を「移動」するだけで、将来的なシーンを予測できる。
物体の動き予測は、3dニューラルネットワークのシーン表現から抽出された物体の特徴を演算するグラフニューラルネットワークによって計算される。
モデルのシミュレーションは、任意の視点から2d画像ビューにニューラルレンダラーで復号できるため、潜在3dシミュレーション空間の解釈性が向上する。
本モデルでは,対話対象の出現数や出現数,カメラ視点,既存の2次元・3次元ダイナミックスモデルよりも優れていることを示す。
さらに、実際のロボット装置において、物体を所望の場所に移動させるモデルベース制御に、シミュレーションのみで訓練されたモデルを適用することにより、学習ダイナミクスのシミュレートを実演する。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - Learning 3D Dynamic Scene Representations for Robot Manipulation [21.6131570689398]
ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。
本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。
本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
論文 参考訳(メタデータ) (2020-11-03T19:23:06Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。