論文の概要: X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability
- arxiv url: http://arxiv.org/abs/2506.13558v1
- Date: Mon, 16 Jun 2025 14:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.701576
- Title: X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability
- Title(参考訳): Xシーン:高忠実でフレキシブルな制御が可能な大規模運転シーン生成
- Authors: Yu Yang, Alan Liang, Jianbiao Mei, Yukai Ma, Yong Liu, Gim Hee Lee,
- Abstract要約: X-Sceneは大規模ドライビングシーン生成のための新しいフレームワークである。
幾何的複雑度と外観の忠実度の両方を実現し、フレキシブルな制御性を提供する。
X-Sceneは、大規模な運転シーン生成のための制御性と忠実性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 49.4647778989539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models are advancing autonomous driving by enabling realistic data synthesis, predictive end-to-end planning, and closed-loop simulation, with a primary focus on temporally consistent generation. However, the generation of large-scale 3D scenes that require spatial coherence remains underexplored. In this paper, we propose X-Scene, a novel framework for large-scale driving scene generation that achieves both geometric intricacy and appearance fidelity, while offering flexible controllability. Specifically, X-Scene supports multi-granular control, including low-level conditions such as user-provided or text-driven layout for detailed scene composition and high-level semantic guidance such as user-intent and LLM-enriched text prompts for efficient customization. To enhance geometrical and visual fidelity, we introduce a unified pipeline that sequentially generates 3D semantic occupancy and the corresponding multiview images, while ensuring alignment between modalities. Additionally, we extend the generated local region into a large-scale scene through consistency-aware scene outpainting, which extrapolates new occupancy and images conditioned on the previously generated area, enhancing spatial continuity and preserving visual coherence. The resulting scenes are lifted into high-quality 3DGS representations, supporting diverse applications such as scene exploration. Comprehensive experiments demonstrate that X-Scene significantly advances controllability and fidelity for large-scale driving scene generation, empowering data generation and simulation for autonomous driving.
- Abstract(参考訳): 拡散モデルは、時間的に一貫した生成に重点を置いて、現実的なデータ合成、予測的なエンドツーエンド計画、クローズドループシミュレーションを可能にすることで、自律運転を前進させている。
しかし,空間的コヒーレンスを必要とする大規模3次元シーンの生成はいまだ検討されていない。
本稿では, 形状の複雑度と外観の忠実度を両立させるとともに, フレキシブルな制御性を実現した, 大規模運転シーン生成のための新しいフレームワークであるX-Sceneを提案する。
具体的には、詳細なシーン構成のためのユーザ提供やテキスト駆動レイアウトなどの低レベル条件や、効率的なカスタマイズのためのユーザインテントやLLM強化テキストプロンプトのような高レベルなセマンティックガイダンスを含む、マルチグラニュラ制御をサポートする。
幾何学的・視覚的忠実性を高めるために,モジュール間の整合性を確保しつつ,連続的に3次元意味的占有度と対応する多視点画像を生成する統一パイプラインを導入する。
さらに, 生成した局所領域を大規模なシーンに拡張し, 空間的連続性を向上し, 視覚的コヒーレンスを保ちながら, 従来生成した領域に置かれていた新たな占有率やイメージを外挿する。
得られたシーンは高品質な3DGS表現へと持ち上げられ、シーン探索のような多様なアプリケーションをサポートする。
総合的な実験により、X-Sceneは、大規模な運転シーン生成のための制御性と忠実度を著しく向上し、データ生成と自律運転シミュレーションの強化を図っている。
関連論文リスト
- RoomCraft: Controllable and Complete 3D Indoor Scene Generation [51.19602078504066]
RoomCraftは、実際の画像、スケッチ、テキスト記述をコヒーレントな3D屋内シーンに変換するマルチステージパイプラインである。
このアプローチでは,シーン生成パイプラインと制約駆動最適化フレームワークを組み合わせる。
RoomCraftは、リアルでセマンティックなコヒーレントで視覚的に魅力的な部屋レイアウトを生成する上で、既存の方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-27T15:03:17Z) - DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving [20.197094443215963]
本稿では、動画から一般的なシーンのダイナミクスと全体像を学習する自己教師型世界モデルDriveXを提案する。
DriveXは,マルチモーダル監視3Dポイントクラウド予測,2Dセマンティック表現,イメージ生成を統合するモジュールであるOmni Scene Modeling (OSM)を導入した。
下流適応のために我々は,DriveXの予測から特徴を動的に集約し,タスク固有の推論を強化する統一パラダイムであるFuture Spatial Attention (FSA)を設計する。
論文 参考訳(メタデータ) (2025-05-25T17:27:59Z) - BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation [16.00575923179227]
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
論文 参考訳(メタデータ) (2025-01-15T11:33:34Z) - UniScene: Unified Occupancy-centric Driving Scene Generation [73.22859345600192]
UniSceneは3つの重要なデータ形式(セマンティック占有率、ビデオ、LiDAR)を生成するための最初の統一フレームワークである。
UniSceneは、シーン生成の複雑なタスクを2つの階層的なステップに分解するプログレッシブな生成プロセスを採用している。
大規模な実験により、UniSceneは、占有率、ビデオ、LiDAR生成において、以前のSOTAよりも優れていたことが示されている。
論文 参考訳(メタデータ) (2024-12-06T21:41:52Z) - InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。
制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文 参考訳(メタデータ) (2024-12-05T07:32:20Z) - AutoSplat: Constrained Gaussian Splatting for Autonomous Driving Scene Reconstruction [17.600027937450342]
AutoSplatは、自動走行シーンの高度に現実的な再構築を実現するために、ガウシアンスプラッティングを使用したフレームワークである。
本手法は,車線変更を含む課題シナリオの多視点一貫したシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-07-02T18:36:50Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - SceneGen: Learning to Generate Realistic Traffic Scenes [92.98412203941912]
私たちは、ルールと分布の必要性を緩和するトラフィックシーンのニューラルオートレグレッシブモデルであるSceneGenを紹介します。
実トラフィックシーンの分布を忠実にモデル化するSceneGenの能力を実証する。
論文 参考訳(メタデータ) (2021-01-16T22:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。