Map2World: Segment Map Conditioned Text to 3D World Generation
Abstractの概要
Map2Worldは、ユーザー定義の任意形状・任意スケールのセグメントマップを空間条件として使用するテキスト条件付き3Dワールド生成フレームワークであり、従来手法のグリッドベースレイアウトを超える拡張を実現している。本手法は事前学習済み3Dアセット生成器TRELLISを基盤とし、共有潜在空間において重複する3Dウィンドウ間の潜在融合を導入することで、セグメントごとのテキストプロンプトによるワールドスケール生成を可能にしている。詳細強化ネットワークは、局所的な粗い構造と隣接領域の両方を条件としてサブキューブのより精細な潜在表現を予測し、連続性を維持する。パイプラインにはスペクトルパラメータ化によるスケール認識型初期潜在最適化とデコーダのファインチューニングも含まれ、出力品質を向上させている。本フレームワークは、限られたワールドレベルの学習データにもかかわらず、グローバルスケールの一貫性とセマンティックアライメントを達成しつつ、ドメイン間で汎化するよう設計されている。
新規性
本論文の主な新規性は、SynCityなどの先行手法で用いられたグリッド制約付きレイアウトではなく、任意形状のセグメントマップを条件としたテキストから3Dワールドの生成を可能にした点にある。体積3Dにおけるマルチウィンドウ潜在融合と、事前学習済みアセット生成の事前知識を活用しつつ、切り詰めたシーン潜在と隣接キューブ潜在の両方への条件付けによりグローバルなシーン一貫性を維持する潜在空間詳細強化器を組み合わせている。
成果
GPTベースのスコアリングプロトコルによる定量評価において、Map2Worldは提案されたWorld Quality指標(7.76 対 7.25)および4基準の平均GPTスコア(7.93/10 対 7.48/10)でSynCityを上回っている。アブレーション実験により、スペクトル領域パラメータ化が高学習率で5ステップ以内の収束を可能にしスケール制御最適化を安定化させること、またCFGなしの結合ベース詳細強化器がテストされた設計バリアントの中で最良のPSNR、LPIPS、FIDスコアを達成することが示された。
論文の注目点
- Map2Worldは、従来のグリッド制約手法とは異なり、任意の領域形状・サイズおよびセグメントごとのテキストプロンプトを持つユーザー定義セグメントマップを条件として3Dワールド生成を行う。
- 本手法は、重複する3Dウィンドウ上のガウス重み付き速度集約による潜在融合と、初期ノイズのスペクトル領域パラメータ化を用いて、グローバルな一貫性とスケール整合性を向上させている。
- 潜在空間詳細強化器は、凍結されたTRELLISフローTransformerの前にMLPレイヤーを追加してファインチューニングすることで学習され、粗いシーン構造と隣接キューブ潜在の両方を条件として局所的な詳細を改善しつつ領域間の連続性を維持する。