論文の概要: NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models
- arxiv url: http://arxiv.org/abs/2304.09787v1
- Date: Wed, 19 Apr 2023 16:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 13:47:23.078074
- Title: NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models
- Title(参考訳): NeuralField-LDM:階層的潜在拡散モデルを用いたシーン生成
- Authors: Seung Wook Kim, Bradley Brown, Kangxue Yin, Karsten Kreis, Katja
Schwarz, Daiqing Li, Robin Rombach, Antonio Torralba, Sanja Fidler
- Abstract要約: 複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
- 参考スコア(独自算出の注目度): 85.20004959780132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically generating high-quality real world 3D scenes is of enormous
interest for applications such as virtual reality and robotics simulation.
Towards this goal, we introduce NeuralField-LDM, a generative model capable of
synthesizing complex 3D environments. We leverage Latent Diffusion Models that
have been successfully utilized for efficient high-quality 2D content creation.
We first train a scene auto-encoder to express a set of image and pose pairs as
a neural field, represented as density and feature voxel grids that can be
projected to produce novel views of the scene. To further compress this
representation, we train a latent-autoencoder that maps the voxel grids to a
set of latent representations. A hierarchical diffusion model is then fit to
the latents to complete the scene generation pipeline. We achieve a substantial
improvement over existing state-of-the-art scene generation models.
Additionally, we show how NeuralField-LDM can be used for a variety of 3D
content creation applications, including conditional scene generation, scene
inpainting and scene style manipulation.
- Abstract(参考訳): 高品質な現実世界の3Dシーンを自動生成することは、仮想現実やロボットシミュレーションのようなアプリケーションにとって大きな関心事である。
本研究では,複雑な3次元環境を合成可能な生成モデルneuralfield-ldmを提案する。
我々は,高品質な2dコンテンツ作成に有効な潜在拡散モデルを用いている。
まず,シーンの自動エンコーダを訓練し,画像の組とポーズペアをニューラルネットワークとして表現し,密度として表現し,シーンの新たな視点を投影可能なボクセルグリッドを特徴とする。
この表現をさらに圧縮するために、ボクセルグリッドを潜在表現の集合にマッピングする潜在オートエンコーダを訓練する。
階層的拡散モデルは、シーン生成パイプラインを完了するために潜在子に適合する。
我々は,既存の最先端シーン生成モデルに対する大幅な改善を実現する。
さらに,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションにNeuralField-LDMをどのように利用できるかを示す。
関連論文リスト
- Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文 参考訳(メタデータ) (2024-09-12T16:55:51Z) - Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。
具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。
生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文 参考訳(メタデータ) (2024-08-10T08:09:57Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。