論文の概要: T3VIP: Transformation-based 3D Video Prediction
- arxiv url: http://arxiv.org/abs/2209.11693v1
- Date: Mon, 19 Sep 2022 15:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 23:06:16.958141
- Title: T3VIP: Transformation-based 3D Video Prediction
- Title(参考訳): T3VIP:変換に基づく3次元映像予測
- Authors: Iman Nematollahi, Erick Rosete-Beas, Seyed Mahdi B. Azad, Raghu Rajan,
Frank Hutter, Wolfram Burgard
- Abstract要約: 本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
- 参考スコア(独自算出の注目度): 49.178585201673364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For autonomous skill acquisition, robots have to learn about the physical
rules governing the 3D world dynamics from their own past experience to predict
and reason about plausible future outcomes. To this end, we propose a
transformation-based 3D video prediction (T3VIP) approach that explicitly
models the 3D motion by decomposing a scene into its object parts and
predicting their corresponding rigid transformations. Our model is fully
unsupervised, captures the stochastic nature of the real world, and the
observational cues in image and point cloud domains constitute its learning
signals. To fully leverage all the 2D and 3D observational signals, we equip
our model with automatic hyperparameter optimization (HPO) to interpret the
best way of learning from them. To the best of our knowledge, our model is the
first generative model that provides an RGB-D video prediction of the future
for a static camera. Our extensive evaluation with simulated and real-world
datasets demonstrates that our formulation leads to interpretable 3D models
that predict future depth videos while achieving on-par performance with 2D
models on RGB video prediction. Moreover, we demonstrate that our model
outperforms 2D baselines on visuomotor control. Videos, code, dataset, and
pre-trained models are available at http://t3vip.cs.uni-freiburg.de.
- Abstract(参考訳): 自律的なスキル獲得のためには、ロボットは過去の経験から3D世界のダイナミクスを規定する物理的なルールを学ばなければならない。
そこで,本稿では,シーンを対象部品に分解し,対応する剛性変換を予測して3次元動作を明示的にモデル化するt3vip(transform-based 3d video prediction)手法を提案する。
私たちのモデルは、完全に教師なしで、現実世界の確率的性質を捉え、イメージとポイントクラウドドメインの観察的手がかりがその学習信号を構成する。
これら2次元および3次元の観測信号を完全に活用するために、我々はモデルにHPO(Automatic Hyperparameter Optimization)を装備し、それらから最良の学習方法を解釈する。
私たちの知る限りでは、私たちのモデルは、静的カメラの将来のrgb-dビデオ予測を提供する最初の生成モデルです。
シミュレーションおよび実世界のデータセットを用いた広範な評価により,rgbビデオ予測における2dモデルによるオンパリティ性能を達成しつつ,将来的な深度映像を予測可能な3dモデルが導かれることを実証した。
さらに,本モデルが2dベースラインを上回っていることを示す。
ビデオ、コード、データセット、事前トレーニングされたモデルはhttp://t3vip.cs.uni-freiburg.deで入手できる。
関連論文リスト
- Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling [10.247075501610492]
マルチビューRGBビデオからオブジェクトダイナミクスを直接学習するフレームワークを導入する。
グラフニューラルネットワークを用いて粒子ベース力学モデルを訓練する。
本手法は,初期設定の異なる物体の動きやロボットの動作を予測できる。
論文 参考訳(メタデータ) (2024-10-24T17:02:52Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - Learning 3D Dynamic Scene Representations for Robot Manipulation [21.6131570689398]
ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。
本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。
本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
論文 参考訳(メタデータ) (2020-11-03T19:23:06Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。