論文の概要: PanoDreamer: Consistent Text to 360-Degree Scene Generation
- arxiv url: http://arxiv.org/abs/2504.05152v1
- Date: Mon, 07 Apr 2025 14:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:59.393218
- Title: PanoDreamer: Consistent Text to 360-Degree Scene Generation
- Title(参考訳): PanoDreamer:360度シーン生成に一貫性のあるテキスト
- Authors: Zhexiao Xiong, Zhang Chen, Zhong Li, Yi Xu, Nathan Jacobs,
- Abstract要約: PanoDreamerは、フレキシブルテキストとイメージコントロールを備えた、一貫性のある3Dシーン生成のためのフレームワークである。
提案手法では,大規模言語モデルとワープ・リファイン・パイプラインを用い,まず初期画像を生成する。
次に、異なる視点から、初期点クラウドと整合した追加画像を生成するために、いくつかのアプローチを使用します。
- 参考スコア(独自算出の注目度): 32.24247313124053
- License:
- Abstract: Automatically generating a complete 3D scene from a text description, a reference image, or both has significant applications in fields like virtual reality and gaming. However, current methods often generate low-quality textures and inconsistent 3D structures. This is especially true when extrapolating significantly beyond the field of view of the reference image. To address these challenges, we propose PanoDreamer, a novel framework for consistent, 3D scene generation with flexible text and image control. Our approach employs a large language model and a warp-refine pipeline, first generating an initial set of images and then compositing them into a 360-degree panorama. This panorama is then lifted into 3D to form an initial point cloud. We then use several approaches to generate additional images, from different viewpoints, that are consistent with the initial point cloud and expand/refine the initial point cloud. Given the resulting set of images, we utilize 3D Gaussian Splatting to create the final 3D scene, which can then be rendered from different viewpoints. Experiments demonstrate the effectiveness of PanoDreamer in generating high-quality, geometrically consistent 3D scenes.
- Abstract(参考訳): テキスト記述や参照画像から完全な3Dシーンを自動的に生成するか、あるいはどちらも、仮想現実やゲームといった分野において重要な応用がある。
しかし、現在の手法はしばしば低品質なテクスチャと不整合な3D構造を生成する。
これは、参照画像の視野をはるかに超えて外挿する場合に特に当てはまる。
これらの課題に対処するために,フレキシブルテキストと画像制御を備えた一貫した3次元シーン生成のための新しいフレームワークであるPanoDreamerを提案する。
我々のアプローチでは、大きな言語モデルとワープ・リファイン・パイプラインを使用し、最初は画像のセットを生成し、次にそれを360度パノラマに合成する。
このパノラマは3Dに持ち上げられ、初期点雲を形成する。
次に、いくつかのアプローチを使用して、異なる視点から、初期点クラウドと整合した追加画像を生成し、初期点クラウドを拡大/再定義します。
得られた画像の集合を考慮し、3Dガウススプラッティングを用いて最終3Dシーンを作成し、異なる視点からレンダリングする。
実験は、高品質で幾何学的に整合した3Dシーンを生成する上で、PanoDreamerの有効性を示す。
関連論文リスト
- SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting [53.32467009064287]
テキスト駆動型3D一貫性シーン生成モデルSceneDreamer360を提案する。
提案手法は,テキスト駆動パノラマ画像生成モデルを3次元シーン生成の先行モデルとして活用する。
SceneDreamer360はそのパノラマ画像生成と3DGSにより、より高品質で空間的に整合性があり、視覚的に魅力的な3Dシーンを任意のテキストプロンプトから生成できることを示した。
論文 参考訳(メタデータ) (2024-08-25T02:56:26Z) - LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation [105.52153675890408]
3D没入型シーン生成はコンピュータビジョンとグラフィックスにおいて難しいが重要な課題である。
Layerpano3Dは、単一のテキストプロンプトからフルビューで探索可能なパノラマ3Dシーンを生成するための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-08-23T17:50:23Z) - HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.342899807980654]
3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文 参考訳(メタデータ) (2024-07-21T14:52:51Z) - DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes [52.31402192831474]
しかし、既存の3Dシーン生成モデルは、ターゲットシーンを特定のドメインに制限する。
ドメインフリーシーン生成パイプラインであるLucidDreamerを提案する。
LucidDreamerは、ターゲットシーンのドメインに制約がなく、高詳細なガウススプラットを生成する。
論文 参考訳(メタデータ) (2023-11-22T13:27:34Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。