論文の概要: BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled
Images
- arxiv url: http://arxiv.org/abs/2002.08988v4
- Date: Wed, 2 Dec 2020 11:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 07:51:52.822738
- Title: BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled
Images
- Title(参考訳): BlockGAN: ラベルのない画像から3Dオブジェクト認識のシーン表現を学習する
- Authors: Thu Nguyen-Phuoc, Christian Richardt, Long Mai, Yong-Liang Yang, Niloy
Mitra
- Abstract要約: 画像生成モデルであるBlockGANについて述べる。
コンピュータグラフィックスパイプラインにインスパイアされた我々は、BlockGANを設計し、まず背景と前景の3D機能を生成し、それらを全体の3D機能に組み合わせることを学ぶ。
- 参考スコア(独自算出の注目度): 38.952307525311625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BlockGAN, an image generative model that learns object-aware 3D
scene representations directly from unlabelled 2D images. Current work on scene
representation learning either ignores scene background or treats the whole
scene as one object. Meanwhile, work that considers scene compositionality
treats scene objects only as image patches or 2D layers with alpha maps.
Inspired by the computer graphics pipeline, we design BlockGAN to learn to
first generate 3D features of background and foreground objects, then combine
them into 3D features for the wholes cene, and finally render them into
realistic images. This allows BlockGAN to reason over occlusion and interaction
between objects' appearance, such as shadow and lighting, and provides control
over each object's 3D pose and identity, while maintaining image realism.
BlockGAN is trained end-to-end, using only unlabelled single images, without
the need for 3D geometry, pose labels, object masks, or multiple views of the
same scene. Our experiments show that using explicit 3D features to represent
objects allows BlockGAN to learn disentangled representations both in terms of
objects (foreground and background) and their properties (pose and identity).
- Abstract(参考訳): 本研究では,2次元画像から物体認識された3次元シーン表現を直接学習する画像生成モデルblockganを提案する。
現在のシーン表現学習の作業は、シーンの背景を無視したり、シーン全体を1つのオブジェクトとして扱う。
一方、シーン構成性を考慮する作業は、シーンオブジェクトを画像パッチまたはアルファマップを持つ2dレイヤとしてのみ扱う。
コンピュータグラフィックスパイプラインにインスパイアされた私たちは、BlockGANを設計し、まず背景と前景オブジェクトの3D機能を生成し、それらをシーン全体の3D機能に組み合わせ、最終的にそれらをリアルなイメージにレンダリングする。
これによりBlockGANは、影や照明などのオブジェクトの外観の排他的相互作用を推論し、画像リアリズムを維持しながら、各オブジェクトの3Dポーズとアイデンティティを制御することができる。
BlockGANはエンドツーエンドでトレーニングされており、3Dジオメトリ、ポーズラベル、オブジェクトマスク、同じシーンの複数のビューを必要とせずに、ラベルのない単一のイメージのみを使用する。
実験の結果,オブジェクトを表すために明示的な3D特徴を用いることで,オブジェクト(背景と背景)とそれらの特性(目的と同一性)の両方において,不整合表現を学習できることがわかった。
関連論文リスト
- Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - gCoRF: Generative Compositional Radiance Fields [80.45269080324677]
オブジェクトの3次元生成モデルにより、3次元制御によるフォトリアリスティック画像合成が可能となる。
既存の方法はシーンをグローバルなシーン表現としてモデル化し、シーンの構成的側面を無視します。
本稿では,オブジェクトの各意味部分を独立した3次元表現として表現する合成生成モデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T14:10:44Z) - Volumetric Disentanglement for 3D Scene Manipulation [22.22326242219791]
本研究では,前景オブジェクトを背景から切り離したり分離したりするためのボリューム・フレームワークを提案し,前景オブジェクトを背景だけでなく意味的に操作する。
筆者らのフレームワークは,望まれる前景オブジェクトを指定する2次元マスクと関連する2次元ビューとポーズを入力として,前景のゆがみを生成する。
その後、オブジェクト・カモフラージュ、非負の3Dオブジェクト・インペインティング、3Dオブジェクト・インペインティング、3Dテキスト・ベースなど、多数の下流操作タスクに対するフレームワークの適用性を実証した。
論文 参考訳(メタデータ) (2022-06-06T17:57:07Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - ROOTS: Object-Centric Representation and Rendering of 3D Scenes [28.24758046060324]
人間の知能の重要な能力は、部分的なシーンの観察から個々の3Dオブジェクトのモデルを構築することである。
最近の研究は、オブジェクト中心の生成を実現するが、表現を推測する能力がない。
本稿では,モジュール型および構成型3Dオブジェクトモデル構築学習のための確率論的生成モデルを提案する。
論文 参考訳(メタデータ) (2020-06-11T00:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。