論文の概要: HOLODECK 2.0: Vision-Language-Guided 3D World Generation with Editing
- arxiv url: http://arxiv.org/abs/2508.05899v1
- Date: Thu, 07 Aug 2025 23:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.02813
- Title: HOLODECK 2.0: Vision-Language-Guided 3D World Generation with Editing
- Title(参考訳): HOLODECK 2.0: 編集機能付きビジョンガイド付き3Dワールドジェネレーション
- Authors: Zixuan Bian, Ruohan Ren, Yue Yang, Chris Callison-Burch,
- Abstract要約: HOLODECK 2.0は、3Dワールドジェネレーションのための視覚言語誘導フレームワークであり、人間のフィードバックに基づいたインタラクティブなシーン編集をサポートする。
HOLODECK 2.0は多様でスタイリスティックにリッチな3Dシーンを生成することができる。
プロシージャゲームモデリングにおけるHOLODECK 2.0の実践的応用として,視覚的にリッチで没入感のある環境を生成する。
- 参考スコア(独自算出の注目度): 41.286679295440855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene generation plays a crucial role in gaming, artistic creation, virtual reality and many other domains. However, current 3D scene design still relies heavily on extensive manual effort from creators, and existing automated methods struggle to generate open-domain scenes or support flexible editing. As a result, generating 3D worlds directly from text has garnered increasing attention. In this paper, we introduce HOLODECK 2.0, an advanced vision-language-guided framework for 3D world generation with support for interactive scene editing based on human feedback. HOLODECK 2.0 can generate diverse and stylistically rich 3D scenes (e.g., realistic, cartoon, anime, and cyberpunk styles) that exhibit high semantic fidelity to fine-grained input descriptions, suitable for both indoor and open-domain environments. HOLODECK 2.0 leverages vision-language models (VLMs) to identify and parse the objects required in a scene and generates corresponding high-quality assets via state-of-the-art 3D generative models. It then iteratively applies spatial constraints derived from the VLMs to achieve semantically coherent and physically plausible layouts. Human evaluations and CLIP-based assessments demonstrate that HOLODECK 2.0 effectively generates high-quality scenes closely aligned with detailed textual descriptions, consistently outperforming baselines across indoor and open-domain scenarios. Additionally, we provide editing capabilities that flexibly adapt to human feedback, supporting layout refinement and style-consistent object edits. Finally, we present a practical application of HOLODECK 2.0 in procedural game modeling, generating visually rich and immersive environments, potentially boosting efficiency.
- Abstract(参考訳): 3Dシーン生成は、ゲーム、芸術的創造、バーチャルリアリティ、その他多くの分野において重要な役割を担っている。
しかし、現在の3Dシーンデザインは、クリエーターによる広範な手作業に大きく依存しており、既存の自動手法では、オープンドメインシーンの生成やフレキシブルな編集のサポートに苦労している。
その結果,テキストから直接3D世界を生成することに注目が集まっている。
本稿では,人間のフィードバックに基づくインタラクティブなシーン編集をサポートする3Dワールドジェネレーションのための高度な視覚言語誘導フレームワークであるHOLODECK 2.0を紹介する。
HOLODECK 2.0は、多様でスタイリスティックにリッチな3Dシーン(例えば、リアル、漫画、アニメ、サイバーパンクスタイル)を生成することができる。
HOLODECK 2.0は視覚言語モデル(VLM)を利用してシーンに必要なオブジェクトを特定し解析し、最先端の3D生成モデルによって対応する高品質な資産を生成する。
次に、VLMから導出される空間的制約を反復的に適用し、セマンティック・コヒーレントで物理的に妥当なレイアウトを実現する。
ヒトの評価とCLIPに基づく評価は、HOLODECK 2.0が、詳細なテキスト記述と密に整合した高品質なシーンを効果的に生成し、屋内およびオープンドメインシナリオにおけるベースラインを一貫して上回っていることを示している。
さらに、人間のフィードバックに柔軟に対応し、レイアウトの洗練とスタイル一貫性のあるオブジェクト編集をサポートする編集機能を提供する。
最後に,HOLODECK 2.0をプロシージャゲームモデリングに適用し,視覚的にリッチで没入感のある環境を生成し,効率を向上する可能性を示した。
関連論文リスト
- SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens [89.05195827071582]
SceMoSはシーン対応モーション合成フレームワークである。
軽量な2Dキューを使用して、グローバルプランニングをローカル実行から切り離す。
SceMoSはTRUMANSベンチマークで最先端のモーションリアリズムと接触精度を達成する。
論文 参考訳(メタデータ) (2026-02-24T02:09:12Z) - Dreamcrafter: Immersive Editing of 3D Radiance Fields Through Flexible, Generative Inputs and Outputs [11.930415439754173]
我々は、生成AIの進歩をリアルタイムな没入型3Dラジアンスフィールド編集に組み込む方法について検討する。
我々は,(1)生成型AIアルゴリズムを統合するモジュールアーキテクチャを提供する,(2)自然言語や直接操作を含むオブジェクト生成のためのさまざまなレベルの制御を統合する,(3)高遅延操作時のインタラクションをサポートするプロキシ表現を導入する,という3Dシーン編集システムを紹介した。
論文 参考訳(メタデータ) (2025-12-23T07:43:53Z) - WorldGen: From Text to Traversable and Interactive 3D Worlds [87.95088818329403]
本稿では,テキストプロンプトから直接,大規模でインタラクティブな3Dワールドを自動生成するシステムWorldGenを紹介する。
我々のアプローチは、自然言語記述を標準のゲームエンジン内で即座に探索または編集できる完全にテクスチャ化された環境に変換する。
この研究は、ゲーム、シミュレーション、没入型社会環境における応用のための3D生成AIのフロンティアを前進させる、アクセス可能で、大規模に生成可能な世界構築への一歩である。
論文 参考訳(メタデータ) (2025-11-20T22:13:18Z) - WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [30.986527559921335]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。
提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文 参考訳(メタデータ) (2025-07-29T13:43:35Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.342899807980654]
3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文 参考訳(メタデータ) (2024-07-21T14:52:51Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - HyperDreamer: Hyper-Realistic 3D Content Generation and Editing from a
Single Image [94.11473240505534]
一つの画像から3Dコンテンツを作成するためのツールであるHyperDreamerを紹介します。
ユーザーは、結果の3Dコンテンツをフル範囲から閲覧、レンダリング、編集できないため、ポストジェネレーションの使用には十分である。
高分解能なテクスチャとユーザフレンドリーな編集が可能な領域認識素材のモデリングにおけるHyperDreamerの有効性を実証する。
論文 参考訳(メタデータ) (2023-12-07T18:58:09Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z) - NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文 参考訳(メタデータ) (2023-04-19T16:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。