論文の概要: UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative
Neural Feature Fields
- arxiv url: http://arxiv.org/abs/2303.14167v2
- Date: Tue, 28 Mar 2023 02:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 11:25:55.098507
- Title: UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative
Neural Feature Fields
- Title(参考訳): 都市GIRAFFE:構成生成型ニューラル特徴場としての都市景観の表現
- Authors: Yuanbo Yang, Yifei Yang, Hanlei Guo, Rong Xiong, Yue Wang, Yiyi Liao
- Abstract要約: 粗い3Dパノプティクスを用いて、3D認識生成モデルを導出するUrbanGIRAFFEを提案する。
私たちのモデルは、シーンを物、物、空に分解するので、構成的で制御可能です。
適切な損失関数を用いることで,多種多様な可制御性を持つ光リアルな3次元画像合成が容易となる。
- 参考スコア(独自算出の注目度): 22.180286908121946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating photorealistic images with controllable camera pose and scene
contents is essential for many applications including AR/VR and simulation.
Despite the fact that rapid progress has been made in 3D-aware generative
models, most existing methods focus on object-centric images and are not
applicable to generating urban scenes for free camera viewpoint control and
scene editing. To address this challenging task, we propose UrbanGIRAFFE, which
uses a coarse 3D panoptic prior, including the layout distribution of
uncountable stuff and countable objects, to guide a 3D-aware generative model.
Our model is compositional and controllable as it breaks down the scene into
stuff, objects, and sky. Using stuff prior in the form of semantic voxel grids,
we build a conditioned stuff generator that effectively incorporates the coarse
semantic and geometry information. The object layout prior further allows us to
learn an object generator from cluttered scenes. With proper loss functions,
our approach facilitates photorealistic 3D-aware image synthesis with diverse
controllability, including large camera movement, stuff editing, and object
manipulation. We validate the effectiveness of our model on both synthetic and
real-world datasets, including the challenging KITTI-360 dataset.
- Abstract(参考訳): AR/VRやシミュレーションを含む多くのアプリケーションにおいて、カメラポーズやシーン内容の制御が可能なフォトリアリスティック画像の生成が不可欠である。
3D認識生成モデルで急速に進歩しているにもかかわらず、既存の手法のほとんどはオブジェクト中心の画像に焦点を当てており、自由カメラ視点制御やシーン編集のための都市シーンの生成には適用できない。
そこで本稿では,難易度の高い3dパンオプティクスを用いた3d認識生成モデルを導出するために,可算物と可算物体のレイアウト分布を含む粗い3dパンオプティクスを用いた都市giraffeを提案する。
私たちのモデルは、シーンを物、物、空に分解するので、構成と制御が可能です。
セマンティクスボクセルグリッド(semantic voxel grids)の形式に先立って、粗いセマンティクスと幾何情報を効果的に組み込んだ条件付き生成器を構築します。
事前のオブジェクトレイアウトにより、散らかったシーンからオブジェクトジェネレータを学ぶことができます。
適切な損失関数により,大規模なカメラの動き,物体の編集,物体の操作など,様々な制御性を持つ光リアルな3D認識画像合成が容易となる。
kitti-360データセットを含む合成データと実世界のデータセットの両方において,モデルの有効性を検証する。
関連論文リスト
- 3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting [100.94916668527544]
既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。
本稿では,新鮮で統一的なシーン編集フレームワークである3DitSceneを提案する。
2Dから3Dへのシームレスな編集が可能で、シーン構成や個々のオブジェクトを正確に制御できる。
論文 参考訳(メタデータ) (2024-05-28T17:59:01Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。
我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。
実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T11:54:35Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。