論文の概要: Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors
- arxiv url: http://arxiv.org/abs/2010.04030v5
- Date: Tue, 3 May 2022 08:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:35:28.326051
- Title: Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors
- Title(参考訳): 深部形状を用いた多目的3次元シーン分割の弱教師付き学習
- Authors: Cathrin Elich, Martin R. Oswald, Marc Pollefeys, Joerg Stueckler
- Abstract要約: PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
- 参考スコア(独自算出の注目度): 69.02332607843569
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Representing scenes at the granularity of objects is a prerequisite for scene
understanding and decision making. We propose PriSMONet, a novel approach based
on Prior Shape knowledge for learning Multi-Object 3D scene decomposition and
representations from single images. Our approach learns to decompose images of
synthetic scenes with multiple objects on a planar surface into its constituent
scene objects and to infer their 3D properties from a single view. A recurrent
encoder regresses a latent representation of 3D shape, pose and texture of each
object from an input RGB image. By differentiable rendering, we train our model
to decompose scenes from RGB-D images in a self-supervised way. The 3D shapes
are represented continuously in function-space as signed distance functions
which we pre-train from example shapes in a supervised way. These shape priors
provide weak supervision signals to better condition the challenging overall
learning task. We evaluate the accuracy of our model in inferring 3D scene
layout, demonstrate its generative capabilities, assess its generalization to
real images, and point out benefits of the learned representation.
- Abstract(参考訳): オブジェクトの粒度のシーンを表現することは、シーンの理解と意思決定の前提となる。
本稿では,複数対象の3次元シーンの分解と表現を学習するための事前形状知識に基づく新しいアプローチであるprismonetを提案する。
提案手法では,平面面上に複数の物体を配置した合成シーンの画像を合成シーンに分解し,その3次元特性を単一視点から推定する。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
異なるレンダリングにより、RGB-D画像からシーンを自己管理的に分解するようにモデルを訓練する。
3次元形状は, 実例形状から教師付き方法で事前学習した符号付き距離関数として, 連続的に関数空間で表現される。
これらの形状は、難易度の高い総合的な学習課題を改善するために、弱い監視信号を提供する。
本研究では,3次元シーンレイアウトを推定するモデルの精度を評価し,生成能力を示し,実画像への一般化を評価し,学習表現の利点を指摘する。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - 3DP3: 3D Scene Perception via Probabilistic Programming [28.491817202574932]
3DP3は、オブジェクト、シーン、イメージの構造化生成モデルで推論を使用する逆グラフィックのためのフレームワークである。
その結果,3DP3は深層学習ベースラインよりも実画像から6DoFオブジェクトのポーズ推定の方が精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-10-30T19:10:34Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。