論文の概要: Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors
- arxiv url: http://arxiv.org/abs/2010.04030v5
- Date: Tue, 3 May 2022 08:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:35:28.326051
- Title: Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors
- Title(参考訳): 深部形状を用いた多目的3次元シーン分割の弱教師付き学習
- Authors: Cathrin Elich, Martin R. Oswald, Marc Pollefeys, Joerg Stueckler
- Abstract要約: PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
- 参考スコア(独自算出の注目度): 69.02332607843569
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Representing scenes at the granularity of objects is a prerequisite for scene
understanding and decision making. We propose PriSMONet, a novel approach based
on Prior Shape knowledge for learning Multi-Object 3D scene decomposition and
representations from single images. Our approach learns to decompose images of
synthetic scenes with multiple objects on a planar surface into its constituent
scene objects and to infer their 3D properties from a single view. A recurrent
encoder regresses a latent representation of 3D shape, pose and texture of each
object from an input RGB image. By differentiable rendering, we train our model
to decompose scenes from RGB-D images in a self-supervised way. The 3D shapes
are represented continuously in function-space as signed distance functions
which we pre-train from example shapes in a supervised way. These shape priors
provide weak supervision signals to better condition the challenging overall
learning task. We evaluate the accuracy of our model in inferring 3D scene
layout, demonstrate its generative capabilities, assess its generalization to
real images, and point out benefits of the learned representation.
- Abstract(参考訳): オブジェクトの粒度のシーンを表現することは、シーンの理解と意思決定の前提となる。
本稿では,複数対象の3次元シーンの分解と表現を学習するための事前形状知識に基づく新しいアプローチであるprismonetを提案する。
提案手法では,平面面上に複数の物体を配置した合成シーンの画像を合成シーンに分解し,その3次元特性を単一視点から推定する。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
異なるレンダリングにより、RGB-D画像からシーンを自己管理的に分解するようにモデルを訓練する。
3次元形状は, 実例形状から教師付き方法で事前学習した符号付き距離関数として, 連続的に関数空間で表現される。
これらの形状は、難易度の高い総合的な学習課題を改善するために、弱い監視信号を提供する。
本研究では,3次元シーンレイアウトを推定するモデルの精度を評価し,生成能力を示し,実画像への一般化を評価し,学習表現の利点を指摘する。
関連論文リスト
- Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - 3DP3: 3D Scene Perception via Probabilistic Programming [28.491817202574932]
3DP3は、オブジェクト、シーン、イメージの構造化生成モデルで推論を使用する逆グラフィックのためのフレームワークである。
その結果,3DP3は深層学習ベースラインよりも実画像から6DoFオブジェクトのポーズ推定の方が精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-10-30T19:10:34Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation [26.868351498722884]
ニューラルラジアンスフィールド(NeRF)の集合として表現された3Dモデルにシーンの単一のイメージを変換する手法であるObSuRFを紹介します。
RGB-D入力でのNeRFのトレーニングを可能にする新しい損失を導き出し、より計算的に学習を効率化します。
論文 参考訳(メタデータ) (2021-04-02T16:59:29Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。