Fugu-MT 論文翻訳(概要): HOLODECK 2.0: Vision-Language-Guided 3D World Generation with Editing

論文の概要: HOLODECK 2.0: Vision-Language-Guided 3D World Generation with Editing

arxiv url: http://arxiv.org/abs/2508.05899v1
Date: Thu, 07 Aug 2025 23:23:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-11 20:39:06.02813
Title: HOLODECK 2.0: Vision-Language-Guided 3D World Generation with Editing
Title（参考訳）: HOLODECK 2.0: 編集機能付きビジョンガイド付き3Dワールドジェネレーション
Authors: Zixuan Bian, Ruohan Ren, Yue Yang, Chris Callison-Burch,
Abstract要約: HOLODECK 2.0は、3Dワールドジェネレーションのための視覚言語誘導フレームワークであり、人間のフィードバックに基づいたインタラクティブなシーン編集をサポートする。 HOLODECK 2.0は多様でスタイリスティックにリッチな3Dシーンを生成することができる。プロシージャゲームモデリングにおけるHOLODECK 2.0の実践的応用として,視覚的にリッチで没入感のある環境を生成する。
参考スコア（独自算出の注目度）: 41.286679295440855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D scene generation plays a crucial role in gaming, artistic creation, virtual reality and many other domains. However, current 3D scene design still relies heavily on extensive manual effort from creators, and existing automated methods struggle to generate open-domain scenes or support flexible editing. As a result, generating 3D worlds directly from text has garnered increasing attention. In this paper, we introduce HOLODECK 2.0, an advanced vision-language-guided framework for 3D world generation with support for interactive scene editing based on human feedback. HOLODECK 2.0 can generate diverse and stylistically rich 3D scenes (e.g., realistic, cartoon, anime, and cyberpunk styles) that exhibit high semantic fidelity to fine-grained input descriptions, suitable for both indoor and open-domain environments. HOLODECK 2.0 leverages vision-language models (VLMs) to identify and parse the objects required in a scene and generates corresponding high-quality assets via state-of-the-art 3D generative models. It then iteratively applies spatial constraints derived from the VLMs to achieve semantically coherent and physically plausible layouts. Human evaluations and CLIP-based assessments demonstrate that HOLODECK 2.0 effectively generates high-quality scenes closely aligned with detailed textual descriptions, consistently outperforming baselines across indoor and open-domain scenarios. Additionally, we provide editing capabilities that flexibly adapt to human feedback, supporting layout refinement and style-consistent object edits. Finally, we present a practical application of HOLODECK 2.0 in procedural game modeling, generating visually rich and immersive environments, potentially boosting efficiency.
Abstract（参考訳）: 3Dシーン生成は、ゲーム、芸術的創造、バーチャルリアリティ、その他多くの分野において重要な役割を担っている。しかし、現在の3Dシーンデザインは、クリエーターによる広範な手作業に大きく依存しており、既存の自動手法では、オープンドメインシーンの生成やフレキシブルな編集のサポートに苦労している。その結果,テキストから直接3D世界を生成することに注目が集まっている。本稿では,人間のフィードバックに基づくインタラクティブなシーン編集をサポートする3Dワールドジェネレーションのための高度な視覚言語誘導フレームワークであるHOLODECK 2.0を紹介する。 HOLODECK 2.0は、多様でスタイリスティックにリッチな3Dシーン(例えば、リアル、漫画、アニメ、サイバーパンクスタイル)を生成することができる。 HOLODECK 2.0は視覚言語モデル(VLM)を利用してシーンに必要なオブジェクトを特定し解析し、最先端の3D生成モデルによって対応する高品質な資産を生成する。次に、VLMから導出される空間的制約を反復的に適用し、セマンティック・コヒーレントで物理的に妥当なレイアウトを実現する。ヒトの評価とCLIPに基づく評価は、HOLODECK 2.0が、詳細なテキスト記述と密に整合した高品質なシーンを効果的に生成し、屋内およびオープンドメインシナリオにおけるベースラインを一貫して上回っていることを示している。さらに、人間のフィードバックに柔軟に対応し、レイアウトの洗練とスタイル一貫性のあるオブジェクト編集をサポートする編集機能を提供する。最後に,HOLODECK 2.0をプロシージャゲームモデリングに適用し,視覚的にリッチで没入感のある環境を生成し,効率を向上する可能性を示した。

論文の概要: HOLODECK 2.0: Vision-Language-Guided 3D World Generation with Editing

関連論文リスト