論文の概要: DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation
- arxiv url: http://arxiv.org/abs/2507.13985v1
- Date: Fri, 18 Jul 2025 14:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.327571
- Title: DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation
- Title(参考訳): DreamScene:3Dガウスをベースとしたエンドツーエンドのテキスト・ツー・3Dシーン・ジェネレーション
- Authors: Haoran Li, Yuli Tian, Kun Lan, Yong Liao, Lin Wang, Pan Hui, Peng Yuan Zhou,
- Abstract要約: テキストや対話から高品質で編集可能な3Dシーン生成のためのエンドツーエンドフレームワークであるDreamSceneを紹介する。
グローバルな一貫性を確保するため、DreamSceneは屋内と屋外の両方に合わせたプログレッシブカメラサンプリング戦略を採用している。
実験によると、DreamSceneは、品質、一貫性、柔軟性において従来の方法を超えており、オープンドメインの3Dコンテンツ作成に実用的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 19.817968922757007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating 3D scenes from natural language holds great promise for applications in gaming, film, and design. However, existing methods struggle with automation, 3D consistency, and fine-grained control. We present DreamScene, an end-to-end framework for high-quality and editable 3D scene generation from text or dialogue. DreamScene begins with a scene planning module, where a GPT-4 agent infers object semantics and spatial constraints to construct a hybrid graph. A graph-based placement algorithm then produces a structured, collision-free layout. Based on this layout, Formation Pattern Sampling (FPS) generates object geometry using multi-timestep sampling and reconstructive optimization, enabling fast and realistic synthesis. To ensure global consistent, DreamScene employs a progressive camera sampling strategy tailored to both indoor and outdoor settings. Finally, the system supports fine-grained scene editing, including object movement, appearance changes, and 4D dynamic motion. Experiments demonstrate that DreamScene surpasses prior methods in quality, consistency, and flexibility, offering a practical solution for open-domain 3D content creation. Code and demos are available at https://dreamscene-project.github.io.
- Abstract(参考訳): 自然言語から3Dシーンを生成することは、ゲーム、映画、デザインにおけるアプリケーションにとって大きな約束である。
しかし、既存の手法は、自動化、3D一貫性、きめ細かい制御に苦慮している。
テキストや対話から高品質で編集可能な3Dシーン生成のためのエンドツーエンドフレームワークであるDreamSceneを紹介する。
DreamSceneは、GPT-4エージェントがオブジェクトの意味と空間的制約を推論してハイブリッドグラフを構築するシーン計画モジュールから始まる。
グラフベースの配置アルゴリズムは、構造化された衝突のないレイアウトを生成する。
このレイアウトに基づいて、フォーメーションパターンサンプリング(FPS)は、多段階サンプリングと再構成最適化を用いてオブジェクト形状を生成し、高速でリアルな合成を可能にする。
グローバルな一貫性を確保するため、DreamSceneは屋内と屋外の両方に合わせたプログレッシブカメラサンプリング戦略を採用している。
最後に、オブジェクトの動き、外観の変化、および4Dダイナミックモーションを含む、きめ細かいシーン編集をサポートする。
実験によると、DreamSceneは、品質、一貫性、柔軟性において従来の方法を超えており、オープンドメインの3Dコンテンツ作成に実用的なソリューションを提供する。
コードとデモはhttps://dreamscene-project.github.ioで公開されている。
関連論文リスト
- Scene Co-pilot: Procedural Text to Video Generation with Human in the Loop [32.92038804110175]
Scene Copilotは、大規模言語モデル(LLM)と手続き型3Dシーンジェネレータを組み合わせたフレームワークである。
Scene Codexはテキスト入力を3Dシーンジェネレータで理解できるコマンドに変換するように設計されている。
BlenderGPTは、生成された3Dシーンと最終的な出力映像を正確に制御する直感的で直接的な方法を提供する。
論文 参考訳(メタデータ) (2024-11-26T19:21:57Z) - SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting [53.32467009064287]
テキスト駆動型3D一貫性シーン生成モデルSceneDreamer360を提案する。
提案手法は,テキスト駆動パノラマ画像生成モデルを3次元シーン生成の先行モデルとして活用する。
SceneDreamer360はそのパノラマ画像生成と3DGSにより、より高品質で空間的に整合性があり、視覚的に魅力的な3Dシーンを任意のテキストプロンプトから生成できることを示した。
論文 参考訳(メタデータ) (2024-08-25T02:56:26Z) - 3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting [100.94916668527544]
既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。
本稿では,新鮮で統一的なシーン編集フレームワークである3DitSceneを提案する。
2Dから3Dへのシームレスな編集が可能で、シーン構成や個々のオブジェクトを正確に制御できる。
論文 参考訳(メタデータ) (2024-05-28T17:59:01Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - DreamScene: 3D Gaussian-based Text-to-3D Scene Generation via Formation Pattern Sampling [17.807481666320825]
本稿では,上記の3つの課題に主に2つの戦略を用いて対処する,新しいテキストから3Dシーン生成フレームワークDreamSceneを提案する。
まずDreamSceneは、3Dオブジェクトの生成パターンによってガイドされるマルチステップサンプリング戦略であるFormation Pattern Smpling(FPS)を採用して、高速でセマンティックにリッチで高品質な表現を形成する。
第二に、DreamSceneは、屋内と屋外の両方に特化して設計されたプログレッシブな3段階カメラサンプリング戦略を採用しており、オブジェクト環境統合とシーン全体の3D一貫性を効果的に確保している。
論文 参考訳(メタデータ) (2024-04-04T16:38:57Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes [52.31402192831474]
しかし、既存の3Dシーン生成モデルは、ターゲットシーンを特定のドメインに制限する。
ドメインフリーシーン生成パイプラインであるLucidDreamerを提案する。
LucidDreamerは、ターゲットシーンのドメインに制約がなく、高詳細なガウススプラットを生成する。
論文 参考訳(メタデータ) (2023-11-22T13:27:34Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。