論文の概要: HOLODECK 2.0: Vision-Language-Guided 3D World Generation with Editing
- arxiv url: http://arxiv.org/abs/2508.05899v1
- Date: Thu, 07 Aug 2025 23:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.02813
- Title: HOLODECK 2.0: Vision-Language-Guided 3D World Generation with Editing
- Title(参考訳): HOLODECK 2.0: 編集機能付きビジョンガイド付き3Dワールドジェネレーション
- Authors: Zixuan Bian, Ruohan Ren, Yue Yang, Chris Callison-Burch,
- Abstract要約: HOLODECK 2.0は、3Dワールドジェネレーションのための視覚言語誘導フレームワークであり、人間のフィードバックに基づいたインタラクティブなシーン編集をサポートする。
HOLODECK 2.0は多様でスタイリスティックにリッチな3Dシーンを生成することができる。
プロシージャゲームモデリングにおけるHOLODECK 2.0の実践的応用として,視覚的にリッチで没入感のある環境を生成する。
- 参考スコア(独自算出の注目度): 41.286679295440855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene generation plays a crucial role in gaming, artistic creation, virtual reality and many other domains. However, current 3D scene design still relies heavily on extensive manual effort from creators, and existing automated methods struggle to generate open-domain scenes or support flexible editing. As a result, generating 3D worlds directly from text has garnered increasing attention. In this paper, we introduce HOLODECK 2.0, an advanced vision-language-guided framework for 3D world generation with support for interactive scene editing based on human feedback. HOLODECK 2.0 can generate diverse and stylistically rich 3D scenes (e.g., realistic, cartoon, anime, and cyberpunk styles) that exhibit high semantic fidelity to fine-grained input descriptions, suitable for both indoor and open-domain environments. HOLODECK 2.0 leverages vision-language models (VLMs) to identify and parse the objects required in a scene and generates corresponding high-quality assets via state-of-the-art 3D generative models. It then iteratively applies spatial constraints derived from the VLMs to achieve semantically coherent and physically plausible layouts. Human evaluations and CLIP-based assessments demonstrate that HOLODECK 2.0 effectively generates high-quality scenes closely aligned with detailed textual descriptions, consistently outperforming baselines across indoor and open-domain scenarios. Additionally, we provide editing capabilities that flexibly adapt to human feedback, supporting layout refinement and style-consistent object edits. Finally, we present a practical application of HOLODECK 2.0 in procedural game modeling, generating visually rich and immersive environments, potentially boosting efficiency.
- Abstract(参考訳): 3Dシーン生成は、ゲーム、芸術的創造、バーチャルリアリティ、その他多くの分野において重要な役割を担っている。
しかし、現在の3Dシーンデザインは、クリエーターによる広範な手作業に大きく依存しており、既存の自動手法では、オープンドメインシーンの生成やフレキシブルな編集のサポートに苦労している。
その結果,テキストから直接3D世界を生成することに注目が集まっている。
本稿では,人間のフィードバックに基づくインタラクティブなシーン編集をサポートする3Dワールドジェネレーションのための高度な視覚言語誘導フレームワークであるHOLODECK 2.0を紹介する。
HOLODECK 2.0は、多様でスタイリスティックにリッチな3Dシーン(例えば、リアル、漫画、アニメ、サイバーパンクスタイル)を生成することができる。
HOLODECK 2.0は視覚言語モデル(VLM)を利用してシーンに必要なオブジェクトを特定し解析し、最先端の3D生成モデルによって対応する高品質な資産を生成する。
次に、VLMから導出される空間的制約を反復的に適用し、セマンティック・コヒーレントで物理的に妥当なレイアウトを実現する。
ヒトの評価とCLIPに基づく評価は、HOLODECK 2.0が、詳細なテキスト記述と密に整合した高品質なシーンを効果的に生成し、屋内およびオープンドメインシナリオにおけるベースラインを一貫して上回っていることを示している。
さらに、人間のフィードバックに柔軟に対応し、レイアウトの洗練とスタイル一貫性のあるオブジェクト編集をサポートする編集機能を提供する。
最後に,HOLODECK 2.0をプロシージャゲームモデリングに適用し,視覚的にリッチで没入感のある環境を生成し,効率を向上する可能性を示した。
関連論文リスト
- HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [30.986527559921335]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。
提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文 参考訳(メタデータ) (2025-07-29T13:43:35Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.342899807980654]
3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文 参考訳(メタデータ) (2024-07-21T14:52:51Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - HyperDreamer: Hyper-Realistic 3D Content Generation and Editing from a
Single Image [94.11473240505534]
一つの画像から3Dコンテンツを作成するためのツールであるHyperDreamerを紹介します。
ユーザーは、結果の3Dコンテンツをフル範囲から閲覧、レンダリング、編集できないため、ポストジェネレーションの使用には十分である。
高分解能なテクスチャとユーザフレンドリーな編集が可能な領域認識素材のモデリングにおけるHyperDreamerの有効性を実証する。
論文 参考訳(メタデータ) (2023-12-07T18:58:09Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z) - NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文 参考訳(メタデータ) (2023-04-19T16:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。