論文の概要: ROOTS: Object-Centric Representation and Rendering of 3D Scenes
- arxiv url: http://arxiv.org/abs/2006.06130v3
- Date: Thu, 1 Jul 2021 21:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:46:09.666496
- Title: ROOTS: Object-Centric Representation and Rendering of 3D Scenes
- Title(参考訳): ROOTS:3Dシーンのオブジェクト中心表現とレンダリング
- Authors: Chang Chen, Fei Deng, Sungjin Ahn
- Abstract要約: 人間の知能の重要な能力は、部分的なシーンの観察から個々の3Dオブジェクトのモデルを構築することである。
最近の研究は、オブジェクト中心の生成を実現するが、表現を推測する能力がない。
本稿では,モジュール型および構成型3Dオブジェクトモデル構築学習のための確率論的生成モデルを提案する。
- 参考スコア(独自算出の注目度): 28.24758046060324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A crucial ability of human intelligence is to build up models of individual
3D objects from partial scene observations. Recent works achieve object-centric
generation but without the ability to infer the representation, or achieve 3D
scene representation learning but without object-centric compositionality.
Therefore, learning to represent and render 3D scenes with object-centric
compositionality remains elusive. In this paper, we propose a probabilistic
generative model for learning to build modular and compositional 3D object
models from partial observations of a multi-object scene. The proposed model
can (i) infer the 3D object representations by learning to search and group
object areas and also (ii) render from an arbitrary viewpoint not only
individual objects but also the full scene by compositing the objects. The
entire learning process is unsupervised and end-to-end. In experiments, in
addition to generation quality, we also demonstrate that the learned
representation permits object-wise manipulation and novel scene generation, and
generalizes to various settings. Results can be found on our project website:
https://sites.google.com/view/roots3d
- Abstract(参考訳): 人間の知能の重要な能力は、部分的なシーン観察から個々の3Dオブジェクトのモデルを構築することである。
最近の研究は、オブジェクト中心の生成を実現するが、表現を推論したり、3次元のシーン表現学習を実現する能力は持たない。
したがって、オブジェクト中心の構成性を持つ3dシーンの表現とレンダリングを学ぶことは、いまだに理解できない。
本稿では,多目的場面の部分的観察からモジュール型および構成型3次元オブジェクトモデルを構築するための確率論的生成モデルを提案する。
提案されたモデルは
(i)対象領域の探索とグループ化の学習による3次元オブジェクト表現の推定
(ii)個々のオブジェクトだけでなく、オブジェクトを構成することでシーン全体を任意の視点でレンダリングする。
学習プロセス全体が教師なしでエンドツーエンドです。
実験では,生成品質に加えて,学習表現が物体操作や新たなシーン生成を可能にし,様々な設定に一般化できることを実証する。
結果はプロジェクトのwebサイトにある。 https://sites.google.com/view/roots3d
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - Unsupervised Discovery of Object-Centric Neural Fields [21.223170092979498]
1つの画像から3次元オブジェクト中心のシーン表現を推定する。
我々は、対象中心神経場(uOCF)の教師なし発見を提案する。
論文 参考訳(メタデータ) (2024-02-12T02:16:59Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - gCoRF: Generative Compositional Radiance Fields [80.45269080324677]
オブジェクトの3次元生成モデルにより、3次元制御によるフォトリアリスティック画像合成が可能となる。
既存の方法はシーンをグローバルなシーン表現としてモデル化し、シーンの構成的側面を無視します。
本稿では,オブジェクトの各意味部分を独立した3次元表現として表現する合成生成モデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T14:10:44Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。