論文の概要: Map2World: Segment Map Conditioned Text to 3D World Generation
- arxiv url: http://arxiv.org/abs/2605.00781v1
- Date: Fri, 01 May 2026 16:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:29.019085
- Title: Map2World: Segment Map Conditioned Text to 3D World Generation
- Title(参考訳): Map2World: セグメントマップ条件付きテキストから3Dワールドジェネレーションへ
- Authors: Jaeyoung Chung, Suyoung Lee, Jianfeng Xiang, Jiaolong Yang, Kyoung Mu Lee,
- Abstract要約: 3Dワールドジェネレーションは没入型コンテンツ作成や自律運転シミュレーションに不可欠である。
近年の3Dワールドジェネレーションの進歩は有望な成果を上げているが,これらの手法はグリッドレイアウトによって制約されている。
本稿では,任意の形状とスケールのユーザ定義セグメントマップ上で,まず3次元世界生成を可能にする新しいフレームワークMap2Worldを紹介する。
- 参考スコア(独自算出の注目度): 64.2098235580955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D world generation is essential for applications such as immersive content creation or autonomous driving simulation. Recent advances in 3D world generation have shown promising results; however, these methods are constrained by grid layouts and suffer from inconsistencies in object scale throughout the entire world. In this work, we introduce a novel framework, Map2World, that first enables 3D world generation conditioned on user-defined segment maps of arbitrary shapes and scales, ensuring global-scale consistency and flexibility across expansive environments. To further enhance the quality, we propose a detail enhancer network that generates fine details of the world. The detail enhancer enables the addition of fine-grained details without compromising overall scene coherence by incorporating global structure information. We design the entire pipeline to leverage strong priors from asset generators, achieving robust generalization across diverse domains, even under limited training data for scene generation. Extensive experiments demonstrate that our method significantly outperforms existing approaches in user-controllability, scale consistency, and content coherence, enabling users to generate 3D worlds under more complex conditions.
- Abstract(参考訳): 3Dワールドジェネレーションは、没入型コンテンツ生成や自律運転シミュレーションのようなアプリケーションに不可欠である。
近年の3Dワールドジェネレーションの進歩は有望な成果を上げているが,これらの手法はグリッド配置に制約され,世界規模でのオブジェクトスケールの不整合に悩まされている。
本研究では,任意の形状とスケールのユーザ定義セグメントマップ上で3次元世界生成を可能にする新しいフレームワークであるMap2Worldを紹介する。
品質をさらに高めるため,世界の詳細な情報を生成するディテール・エンハンサー・ネットワークを提案する。
ディテールエンハンサーは、グローバルな構造情報を組み込むことで、全体のシーンコヒーレンスを損なうことなく、きめ細かいディテールを付加することができる。
シーン生成のための限られたトレーニングデータの下でも、パイプライン全体を設計し、アセットジェネレータからの強い事前情報を活用し、多様なドメインにわたって堅牢な一般化を実現する。
広汎な実験により,本手法はユーザ制御性,スケール一貫性,コンテントコヒーレンスといった既存手法を著しく上回り,より複雑な条件下で3Dワールドを生成できることが実証された。
関連論文リスト
- WorldFlow3D: Flowing Through 3D Distributions for Unbounded World Generation [33.369156362316055]
コンピュータビジョン、グラフィックス、ロボット工学におけるシーンモデリングの基本的なタスクとして、無制限の3Dワールドジェネレーションが登場しつつある。
本研究では,非有界な3次元世界を生成する新手法 WorldFlow3D を提案する。
論文 参考訳(メタデータ) (2026-03-31T00:08:17Z) - Scene Generation at Absolute Scale: Utilizing Semantic and Geometric Guidance From Text for Accurate and Interpretable 3D Indoor Scene Generation [5.189354278537469]
GuidedSceneGenは、メートル法的に正確で、一貫した、意味的に解釈可能な屋内シーンを生成する。
我々のアプローチは、生成プロセス全体を通して絶対的な世界座標フレームを維持します。
論文 参考訳(メタデータ) (2026-03-14T11:46:27Z) - WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - Terra: Explorable Native 3D World Model with Point Latents [74.90179419859415]
本稿では,本質的な3次元潜伏空間における探索可能な環境を表現・生成する,ネイティブな3次元世界モデルTerraを提案する。
具体的には、3次元入力を潜在点表現に符号化する新しい点対ガウス変分オートエンコーダ(P2G-VAE)を提案する。
次に、潜伏点表現を生成するためのスパース点フローマッチングネットワーク(SPFlow)を導入し、同時に潜伏点の位置と特徴を識別する。
論文 参考訳(メタデータ) (2025-10-16T17:59:56Z) - Graph-Guided Dual-Level Augmentation for 3D Scene Segmentation [21.553363236403822]
3Dポイントクラウドセグメンテーションは、シーン内の個々のポイントにセマンティックラベルを割り当てることを目的としている。
既存の手法では、大規模なアノテーションの負担を軽減するためにデータ拡張を採用するのが一般的である。
本稿では,現実的な3次元シーン合成のための2レベル制約付きグラフ誘導型データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-30T13:25:36Z) - CULTURE3D: A Large-Scale and Diverse Dataset of Cultural Landmarks and Terrains for Gaussian-Based Scene Rendering [16.614203937535205]
現在の最先端の3D再構築モデルは、大規模な屋外シーンを構築する際の限界に直面している。
本稿では,41,006個のドローンによる高解像度空中画像からなる100億点の細粒度データセットを提案する。
既存のデータセットと比較すると、我々は非常に大きなスケールと詳細を提供しており、きめ細かい3Dアプリケーションに特化しています。
論文 参考訳(メタデータ) (2025-01-12T20:36:39Z) - World-Consistent Data Generation for Vision-and-Language Navigation [33.13590164890286]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。
VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。
多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文 参考訳(メタデータ) (2024-12-09T11:40:54Z) - Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation [64.07560335451723]
CoSERは、テキストから3Dへの一貫した高密度テキスト・ツー・イメージ・ジェネレータである。
隣人のビューコヒーレンスを巧みに学習することで効率と品質を両立させる。
物理原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
論文 参考訳(メタデータ) (2024-08-23T15:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。