論文の概要: 3DP3: 3D Scene Perception via Probabilistic Programming
- arxiv url: http://arxiv.org/abs/2111.00312v1
- Date: Sat, 30 Oct 2021 19:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 03:23:07.338385
- Title: 3DP3: 3D Scene Perception via Probabilistic Programming
- Title(参考訳): 3DP3:確率計画による3次元シーン認識
- Authors: Nishad Gothoskar, Marco Cusumano-Towner, Ben Zinberg, Matin
Ghavamizadeh, Falk Pollok, Austin Garrett, Joshua B. Tenenbaum, Dan
Gutfreund, Vikash K. Mansinghka
- Abstract要約: 3DP3は、オブジェクト、シーン、イメージの構造化生成モデルで推論を使用する逆グラフィックのためのフレームワークである。
その結果,3DP3は深層学習ベースラインよりも実画像から6DoFオブジェクトのポーズ推定の方が精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 28.491817202574932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present 3DP3, a framework for inverse graphics that uses inference in a
structured generative model of objects, scenes, and images. 3DP3 uses (i) voxel
models to represent the 3D shape of objects, (ii) hierarchical scene graphs to
decompose scenes into objects and the contacts between them, and (iii) depth
image likelihoods based on real-time graphics. Given an observed RGB-D image,
3DP3's inference algorithm infers the underlying latent 3D scene, including the
object poses and a parsimonious joint parametrization of these poses, using
fast bottom-up pose proposals, novel involutive MCMC updates of the scene graph
structure, and, optionally, neural object detectors and pose estimators. We
show that 3DP3 enables scene understanding that is aware of 3D shape,
occlusion, and contact structure. Our results demonstrate that 3DP3 is more
accurate at 6DoF object pose estimation from real images than deep learning
baselines and shows better generalization to challenging scenes with novel
viewpoints, contact, and partial observability.
- Abstract(参考訳): 本稿では,オブジェクト,シーン,画像の構造化生成モデルにおける推論を用いた逆グラフのフレームワークである3DP3を提案する。
3DP3 の使用
(i)オブジェクトの3次元形状を表すボクセルモデル。
(ii)シーンをオブジェクトに分解する階層的なシーングラフとその接点
(iii)リアルタイムグラフィックスに基づく深度画像の可能性。
観察されたRGB-D画像から、3DP3の推論アルゴリズムは、オブジェクトのポーズや、高速なボトムアップポーズの提案、シーングラフ構造の新しい不揮発性MCMC更新、オプションでニューラルオブジェクト検出器とポーズ推定器を用いて、これらのポーズの擬似的な関節パラメトリゼーションを含む、下層の3Dシーンを推論する。
3DP3は3次元形状, 咬合, 接触構造を認識したシーン理解を可能にする。
以上の結果から,3DP3は深層学習ベースラインよりも6DoFオブジェクトの方が精度が高く,新たな視点,接触,部分観測性を備えた挑戦シーンに対して,より汎用性が高いことが示された。
関連論文リスト
- Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - 3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for
Robust 6D Pose Estimation [50.15926681475939]
逆グラフィックスは2次元画像から3次元シーン構造を推論することを目的としている。
確率モデルを導入し,不確実性を定量化し,6次元ポーズ推定タスクにおけるロバスト性を実現する。
3DNELは、RGBから学んだニューラルネットワークの埋め込みと深度情報を組み合わせることで、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-02-07T20:48:35Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Equivariant Neural Rendering [22.95150913645939]
本稿では,3次元の監督なしに画像から直接ニューラルシーン表現を学習するためのフレームワークを提案する。
我々の重要な洞察は、学習された表現が本物の3Dシーンのように変換されることを保証することで、3D構造を課すことである。
私たちの定式化によって、推論に数分を要するモデルに匹敵する結果を得ながら、リアルタイムでシーンを推測および描画することが可能になります。
論文 参考訳(メタデータ) (2020-06-13T12:25:07Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z) - Pix2Shape: Towards Unsupervised Learning of 3D Scenes from Images using
a View-based Representation [20.788952043643906]
Pix2Shapeは、監督なしで単一の入力画像から3Dシーンを生成する。
Pix2Shapeは符号化された潜在空間において一貫したシーン表現を学習する。
Pix2ShapeをShapeNetデータセット上で実験して評価した。
論文 参考訳(メタデータ) (2020-03-23T03:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。