論文の概要: 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation
- arxiv url: http://arxiv.org/abs/2403.09439v1
- Date: Thu, 14 Mar 2024 14:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:07:47.006322
- Title: 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation
- Title(参考訳): 3D-SceneDreamer:テキスト駆動型3D一貫性のシーン生成
- Authors: Frank Zhang, Yibo Zhang, Quan Zheng, Rui Ma, Wei Hua, Hujun Bao, Weiwei Xu, Changqing Zou,
- Abstract要約: 本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
- 参考スコア(独自算出の注目度): 51.64796781728106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven 3D scene generation techniques have made rapid progress in recent years. Their success is mainly attributed to using existing generative models to iteratively perform image warping and inpainting to generate 3D scenes. However, these methods heavily rely on the outputs of existing models, leading to error accumulation in geometry and appearance that prevent the models from being used in various scenarios (e.g., outdoor and unreal scenarios). To address this limitation, we generatively refine the newly generated local views by querying and aggregating global 3D information, and then progressively generate the 3D scene. Specifically, we employ a tri-plane features-based NeRF as a unified representation of the 3D scene to constrain global 3D consistency, and propose a generative refinement network to synthesize new contents with higher quality by exploiting the natural image prior from 2D diffusion model as well as the global 3D information of the current scene. Our extensive experiments demonstrate that, in comparison to previous methods, our approach supports wide variety of scene generation and arbitrary camera trajectories with improved visual quality and 3D consistency.
- Abstract(参考訳): 近年,テキスト駆動3Dシーン生成技術は急速に進歩している。
彼らの成功は主に、3Dシーンを生成するために、既存の生成モデルを用いて画像ワープとインペイントを反復的に行うことによる。
しかし、これらの手法は既存のモデルの出力に大きく依存しており、幾何や外観の誤りが蓄積され、モデルが様々なシナリオ(例えば屋外や非現実のシナリオ)で使用されるのを防ぐ。
この制限に対処するために、我々はグローバルな3D情報をクエリして集約することで、新たに生成されたローカルビューを生成的に洗練し、3Dシーンを段階的に生成する。
具体的には,3次元シーンの統一表現として3次元特徴量に基づくNeRFを用いてグローバルな3次元一貫性を制約し,2次元拡散モデルに先行する自然画像と,現在のシーンのグローバルな3次元情報を利用して,高画質で新たなコンテンツを合成する生成精細ネットワークを提案する。
提案手法は,従来の手法と比較して,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートすることを実証した。
関連論文リスト
- HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.342899807980654]
3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文 参考訳(メタデータ) (2024-07-21T14:52:51Z) - Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。
Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-06-25T14:42:51Z) - MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text [52.296914125558864]
ユーザ特定条件からの3Dシーンの生成は、3Dアプリケーションの生産負担を軽減するための有望な道を提供する。
以前の研究では、限られた制御条件のため、望まれるシーンを実現するためにかなりの努力が必要だった。
部分画像,トップビューに表現されたレイアウト情報,テキストプロンプトを用いて,マルチモーダル条件下での3Dシーンの制御と生成を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-30T12:50:25Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [13.551691697814908]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。