論文の概要: X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability
- arxiv url: http://arxiv.org/abs/2506.13558v1
- Date: Mon, 16 Jun 2025 14:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.701576
- Title: X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability
- Title(参考訳): Xシーン:高忠実でフレキシブルな制御が可能な大規模運転シーン生成
- Authors: Yu Yang, Alan Liang, Jianbiao Mei, Yukai Ma, Yong Liu, Gim Hee Lee,
- Abstract要約: X-Sceneは大規模ドライビングシーン生成のための新しいフレームワークである。
幾何的複雑度と外観の忠実度の両方を実現し、フレキシブルな制御性を提供する。
X-Sceneは、大規模な運転シーン生成のための制御性と忠実性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 49.4647778989539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models are advancing autonomous driving by enabling realistic data synthesis, predictive end-to-end planning, and closed-loop simulation, with a primary focus on temporally consistent generation. However, the generation of large-scale 3D scenes that require spatial coherence remains underexplored. In this paper, we propose X-Scene, a novel framework for large-scale driving scene generation that achieves both geometric intricacy and appearance fidelity, while offering flexible controllability. Specifically, X-Scene supports multi-granular control, including low-level conditions such as user-provided or text-driven layout for detailed scene composition and high-level semantic guidance such as user-intent and LLM-enriched text prompts for efficient customization. To enhance geometrical and visual fidelity, we introduce a unified pipeline that sequentially generates 3D semantic occupancy and the corresponding multiview images, while ensuring alignment between modalities. Additionally, we extend the generated local region into a large-scale scene through consistency-aware scene outpainting, which extrapolates new occupancy and images conditioned on the previously generated area, enhancing spatial continuity and preserving visual coherence. The resulting scenes are lifted into high-quality 3DGS representations, supporting diverse applications such as scene exploration. Comprehensive experiments demonstrate that X-Scene significantly advances controllability and fidelity for large-scale driving scene generation, empowering data generation and simulation for autonomous driving.
- Abstract(参考訳): 拡散モデルは、時間的に一貫した生成に重点を置いて、現実的なデータ合成、予測的なエンドツーエンド計画、クローズドループシミュレーションを可能にすることで、自律運転を前進させている。
しかし,空間的コヒーレンスを必要とする大規模3次元シーンの生成はいまだ検討されていない。
本稿では, 形状の複雑度と外観の忠実度を両立させるとともに, フレキシブルな制御性を実現した, 大規模運転シーン生成のための新しいフレームワークであるX-Sceneを提案する。
具体的には、詳細なシーン構成のためのユーザ提供やテキスト駆動レイアウトなどの低レベル条件や、効率的なカスタマイズのためのユーザインテントやLLM強化テキストプロンプトのような高レベルなセマンティックガイダンスを含む、マルチグラニュラ制御をサポートする。
幾何学的・視覚的忠実性を高めるために,モジュール間の整合性を確保しつつ,連続的に3次元意味的占有度と対応する多視点画像を生成する統一パイプラインを導入する。
さらに, 生成した局所領域を大規模なシーンに拡張し, 空間的連続性を向上し, 視覚的コヒーレンスを保ちながら, 従来生成した領域に置かれていた新たな占有率やイメージを外挿する。
得られたシーンは高品質な3DGS表現へと持ち上げられ、シーン探索のような多様なアプリケーションをサポートする。
総合的な実験により、X-Sceneは、大規模な運転シーン生成のための制御性と忠実度を著しく向上し、データ生成と自律運転シミュレーションの強化を図っている。
関連論文リスト
- UniScene: Unified Occupancy-centric Driving Scene Generation [73.22859345600192]
UniSceneは3つの重要なデータ形式(セマンティック占有率、ビデオ、LiDAR)を生成するための最初の統一フレームワークである。
UniSceneは、シーン生成の複雑なタスクを2つの階層的なステップに分解するプログレッシブな生成プロセスを採用している。
大規模な実験により、UniSceneは、占有率、ビデオ、LiDAR生成において、以前のSOTAよりも優れていたことが示されている。
論文 参考訳(メタデータ) (2024-12-06T21:41:52Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。