論文の概要: NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models
- arxiv url: http://arxiv.org/abs/2304.09787v1
- Date: Wed, 19 Apr 2023 16:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 13:47:23.078074
- Title: NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models
- Title(参考訳): NeuralField-LDM:階層的潜在拡散モデルを用いたシーン生成
- Authors: Seung Wook Kim, Bradley Brown, Kangxue Yin, Karsten Kreis, Katja
Schwarz, Daiqing Li, Robin Rombach, Antonio Torralba, Sanja Fidler
- Abstract要約: 複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
- 参考スコア(独自算出の注目度): 85.20004959780132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically generating high-quality real world 3D scenes is of enormous
interest for applications such as virtual reality and robotics simulation.
Towards this goal, we introduce NeuralField-LDM, a generative model capable of
synthesizing complex 3D environments. We leverage Latent Diffusion Models that
have been successfully utilized for efficient high-quality 2D content creation.
We first train a scene auto-encoder to express a set of image and pose pairs as
a neural field, represented as density and feature voxel grids that can be
projected to produce novel views of the scene. To further compress this
representation, we train a latent-autoencoder that maps the voxel grids to a
set of latent representations. A hierarchical diffusion model is then fit to
the latents to complete the scene generation pipeline. We achieve a substantial
improvement over existing state-of-the-art scene generation models.
Additionally, we show how NeuralField-LDM can be used for a variety of 3D
content creation applications, including conditional scene generation, scene
inpainting and scene style manipulation.
- Abstract(参考訳): 高品質な現実世界の3Dシーンを自動生成することは、仮想現実やロボットシミュレーションのようなアプリケーションにとって大きな関心事である。
本研究では,複雑な3次元環境を合成可能な生成モデルneuralfield-ldmを提案する。
我々は,高品質な2dコンテンツ作成に有効な潜在拡散モデルを用いている。
まず,シーンの自動エンコーダを訓練し,画像の組とポーズペアをニューラルネットワークとして表現し,密度として表現し,シーンの新たな視点を投影可能なボクセルグリッドを特徴とする。
この表現をさらに圧縮するために、ボクセルグリッドを潜在表現の集合にマッピングする潜在オートエンコーダを訓練する。
階層的拡散モデルは、シーン生成パイプラインを完了するために潜在子に適合する。
我々は,既存の最先端シーン生成モデルに対する大幅な改善を実現する。
さらに,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションにNeuralField-LDMをどのように利用できるかを示す。
関連論文リスト
- Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。
我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-06-18T23:14:29Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転における3D環境を理解するための自己教師型学習フレームワークである。
スパースでシングルフレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する。
RGB、奥行き、特徴画像を再構成するために、異なるレンダリングで自己教師される。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Dynamic 3D Gaussian Fields for Urban Areas [60.64840836584623]
大規模でダイナミックな都市部における新規ビュー合成(NVS)のための効率的なニューラル3Dシーン表現法を提案する。
本研究では,大規模都市にスケールするニューラルネットワークシーン表現である4DGFを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:07:39Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。