論文の概要: HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions
- arxiv url: http://arxiv.org/abs/2407.15187v1
- Date: Sun, 21 Jul 2024 14:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 18:59:03.826310
- Title: HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions
- Title(参考訳): HoloDreamer: テキスト記述によるホロスティックな3Dパノラマ世界生成
- Authors: Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan,
- Abstract要約: 3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
- 参考スコア(独自算出の注目度): 31.342899807980654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene generation is in high demand across various domains, including virtual reality, gaming, and the film industry. Owing to the powerful generative capabilities of text-to-image diffusion models that provide reliable priors, the creation of 3D scenes using only text prompts has become viable, thereby significantly advancing researches in text-driven 3D scene generation. In order to obtain multiple-view supervision from 2D diffusion models, prevailing methods typically employ the diffusion model to generate an initial local image, followed by iteratively outpainting the local image using diffusion models to gradually generate scenes. Nevertheless, these outpainting-based approaches prone to produce global inconsistent scene generation results without high degree of completeness, restricting their broader applications. To tackle these problems, we introduce HoloDreamer, a framework that first generates high-definition panorama as a holistic initialization of the full 3D scene, then leverage 3D Gaussian Splatting (3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation of view-consistent and fully enclosed 3D scenes. Specifically, we propose Stylized Equirectangular Panorama Generation, a pipeline that combines multiple diffusion models to enable stylized and detailed equirectangular panorama generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to inpaint the missing region and enhance the integrity of the scene. Comprehensive experiments demonstrated that our method outperforms prior works in terms of overall visual consistency and harmony as well as reconstruction quality and rendering robustness when generating fully enclosed scenes.
- Abstract(参考訳): 3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
テキスト間拡散モデルの強力な生成能力により、テキストプロンプトのみを用いた3Dシーンの作成が可能となり、テキスト駆動型3Dシーン生成の研究が大幅に進展した。
2次元拡散モデルから多視点監視を得るためには、一般的に拡散モデルを用いて初期局所像を生成し、続いて拡散モデルを用いて局所像を反復的に上回り、徐々にシーンを生成する方法が一般的である。
それにもかかわらず、これらの外見に基づくアプローチは、高度に完全性のないグローバルな一貫性のないシーン生成結果を生み出す傾向にあり、より広範な応用を制限している。
これらの問題に対処するために,HoloDreamerは,まずフル3Dシーンの全体的初期化として高精細パノラマを生成し,次に3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し,ビュー一貫性と完全囲い3Dシーンの作成を容易にする。
具体的には,複数の拡散モデルを組み合わせるパイプラインであるStylized Equirectular Panorama Generationを提案する。
その後、拡張2段パノラマ再構成を導入し、3D-GSの2段階最適化を行い、欠落した領域を塗装し、シーンの整合性を高める。
包括的実験により,本手法は全体の視覚的整合性や調和性,再現性,完全囲みシーンの生成時のロバスト性に優れることを示した。
関連論文リスト
- Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model [16.14713604672497]
ReconXは、時間生成タスクとして曖昧な再構築課題を再編成する、新しい3Dシーン再構築パラダイムである。
提案したReconXはまずグローバルポイントクラウドを構築し、3D構造条件としてコンテキスト空間にエンコードする。
この条件に導かれ、ビデオ拡散モデルは、ディテール保存され、高い3D一貫性を示すビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-08-29T17:59:40Z) - SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting [53.32467009064287]
テキスト駆動型3D一貫性シーン生成モデルSceneDreamer360を提案する。
提案手法は,テキスト駆動パノラマ画像生成モデルを3次元シーン生成の先行モデルとして活用する。
SceneDreamer360はそのパノラマ画像生成と3DGSにより、より高品質で空間的に整合性があり、視覚的に魅力的な3Dシーンを任意のテキストプロンプトから生成できることを示した。
論文 参考訳(メタデータ) (2024-08-25T02:56:26Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。