論文の概要: Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.13099v1
- Date: Tue, 18 Jun 2024 23:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:58:20.472343
- Title: Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルを用いた秒間3次元ガウスシーンのサンプリング
- Authors: Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius,
- Abstract要約: 本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。
我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
- 参考スコア(独自算出の注目度): 3.9373541926236766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a latent diffusion model over 3D scenes, that can be trained using only 2D image data. To achieve this, we first design an autoencoder that maps multi-view images to 3D Gaussian splats, and simultaneously builds a compressed latent representation of these splats. Then, we train a multi-view diffusion model over the latent space to learn an efficient generative model. This pipeline does not require object masks nor depths, and is suitable for complex scenes with arbitrary camera positions. We conduct careful experiments on two large-scale datasets of complex real-world scenes -- MVImgNet and RealEstate10K. We show that our approach enables generating 3D scenes in as little as 0.2 seconds, either from scratch, from a single input view, or from sparse input views. It produces diverse and high-quality results while running an order of magnitude faster than non-latent diffusion models and earlier NeRF-based generative models
- Abstract(参考訳): 本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。
そこで我々はまず,マルチビュー画像を3次元ガウススプラットにマッピングするオートエンコーダを設計し,同時にこれらのスプラットの圧縮潜在表現を構築した。
そこで我々は,効率的な生成モデルを学ぶために,潜在空間上の多視点拡散モデルを訓練する。
このパイプラインは、オブジェクトマスクや奥行きを必要とせず、任意のカメラ位置を持つ複雑なシーンに適している。
我々は,MVImgNetとRealEstate10Kという,複雑な現実世界シーンの大規模データセットを慎重に実験する。
提案手法では,スクラッチから,単一インプットビューから,あるいは疎インプットビューから,0.2秒で3Dシーンを生成することができる。
非レイテンシ拡散モデルやそれ以前のNeRFベースの生成モデルよりも桁違いに高速に実行しながら、多種多様で高品質な結果を生成する。
関連論文リスト
- SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。
最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。
両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:52:03Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルから潜伏木を用いた大規模再構成モデルを導入し,シーンの3次元ガウススプラッティングを予測する。
プログレッシブトレーニング戦略により,映像潜時空間上での3D再構成モデルをトレーニングし,高品質,広スコープ,汎用的な3Dシーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation [45.95218923564575]
単一視点からのオブジェクトおよびシーン生成のための新しい1段3次元拡散モデルDiffusionGSを提案する。
実験の結果,PSNRでは2.20dB,FIDでは23.25dB,SOTA法では5倍以上の速度(A100 GPUでは6s)が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:21:24Z) - AugGS: Self-augmented Gaussians with Structural Masks for Sparse-view 3D Reconstruction [9.953394373473621]
スパースビュー3D再構成はコンピュータビジョンにおける大きな課題である。
本研究では,スパース・ビュー3D再構成のための構造マスクを付加した自己拡張型2段ガウス・スプレイティング・フレームワークを提案する。
提案手法は,認識品質における最先端性能と,スパース入力との多視点整合性を実現する。
論文 参考訳(メタデータ) (2024-08-09T03:09:22Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - Pyramid Diffusion for Fine 3D Large Scene Generation [56.00726092690535]
拡散モデルは2次元画像と小型3次元オブジェクトの生成において顕著な結果を示した。
大規模な3Dシーンの合成への応用はめったに研究されていない。
本稿では,大規模拡散モデルを用いて,高品質な屋外シーンを段階的に生成するフレームワークであるPraamid Discrete Diffusion Model (PDD)を紹介する。
論文 参考訳(メタデータ) (2023-11-20T11:24:21Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。