論文の概要: MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes
- arxiv url: http://arxiv.org/abs/2405.14475v4
- Date: Fri, 25 Jul 2025 02:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 14:14:26.452916
- Title: MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes
- Title(参考訳): MagicDrive3D:ストリートシーンにおける任意のビューレンダリングのためのコントロール可能な3D生成
- Authors: Ruiyuan Gao, Kai Chen, Zhihao Li, Lanqing Hong, Zhenguo Li, Qiang Xu,
- Abstract要約: MagicDrive3Dは、コントロール可能な3Dストリートシーン生成のための新しいフレームワークである。
ロードマップ、3Dオブジェクト、テキスト記述を含むマルチコンディション制御をサポートする。
多様な高品質な3Dドライビングシーンを生成し、任意のビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する。
- 参考スコア(独自算出の注目度): 72.02827211293736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable generative models for images and videos have seen significant success, yet 3D scene generation, especially in unbounded scenarios like autonomous driving, remains underdeveloped. Existing methods lack flexible controllability and often rely on dense view data collection in controlled environments, limiting their generalizability across common datasets (e.g., nuScenes). In this paper, we introduce MagicDrive3D, a novel framework for controllable 3D street scene generation that combines video-based view synthesis with 3D representation (3DGS) generation. It supports multi-condition control, including road maps, 3D objects, and text descriptions. Unlike previous approaches that require 3D representation before training, MagicDrive3D first trains a multi-view video generation model to synthesize diverse street views. This method utilizes routinely collected autonomous driving data, reducing data acquisition challenges and enriching 3D scene generation. In the 3DGS generation step, we introduce Fault-Tolerant Gaussian Splatting to address minor errors and use monocular depth for better initialization, alongside appearance modeling to manage exposure discrepancies across viewpoints. Experiments show that MagicDrive3D generates diverse, high-quality 3D driving scenes, supports any-view rendering, and enhances downstream tasks like BEV segmentation, demonstrating its potential for autonomous driving simulation and beyond.
- Abstract(参考訳): 画像やビデオの制御可能な生成モデルは大きな成功を収めているが、3Dシーンの生成は、特に自動運転のような非有界なシナリオでは、未開発のままである。
既存のメソッドはフレキシブルな制御性に欠けており、しばしばコントロールされた環境での高密度なビューデータ収集に依存しており、一般的なデータセット(例えばnuScenes)間での一般化性を制限する。
本稿では,映像ベースビュー合成と3D表現(3DGS)生成を組み合わせた,制御可能な3Dストリートシーン生成のための新しいフレームワークであるMagicDrive3Dを紹介する。
道路地図、3Dオブジェクト、テキスト記述を含むマルチコンディション制御をサポートする。
トレーニング前に3D表現を必要とする従来のアプローチとは異なり、MagicDrive3Dはまず、多様なストリートビューを合成するためにマルチビュービデオ生成モデルをトレーニングする。
本手法は,日常的に収集される自律運転データを利用して,データ取得の課題を低減し,3次元シーン生成を充実させる。
3DGS生成のステップでは、小さなエラーに対処し、単眼深度を用いて初期化を改善するためにフォールトトレラントガウススプラッティングを導入し、外見モデルを用いて視点間の露光不一致を管理する。
実験によると、MagicDrive3Dは多様な高品質な3D運転シーンを生成し、あらゆるビューレンダリングをサポートし、BEVセグメンテーションのような下流のタスクを強化し、自動運転シミュレーションの可能性を実証している。
関連論文リスト
- CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving [25.156989992025625]
本研究では,空間適応型生成フレームワークCoGenを導入し,高3次元一貫性で制御可能なマルチビュービデオを実現する。
粗い2次元条件を微細な3次元表現に置き換えることで,生成した映像の空間的整合性を大幅に向上させる。
以上の結果から, この手法は, 自律運転のための信頼性の高い映像生成ソリューションとして, 幾何学的忠実度と視覚的リアリズムの保存に優れることが示された。
論文 参考訳(メタデータ) (2025-03-28T08:27:05Z) - Controllable 3D Outdoor Scene Generation via Scene Graphs [74.40967075159071]
本研究では,スパースシーングラフを高密度なBEV埋め込みマップに変換するインタラクティブシステムを開発した。
推論中は、ユーザーは簡単にシーングラフを作成したり変更したりして、大規模な屋外シーンを生成することができる。
実験結果から,提案手法は入力シーングラフと密に一致した高品質な3次元都市景観を連続的に生成することが示された。
論文 参考訳(メタデータ) (2025-03-10T10:26:08Z) - DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。
具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。
次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文 参考訳(メタデータ) (2024-12-31T18:59:57Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。
制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文 参考訳(メタデータ) (2024-12-05T07:32:20Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z) - MagicDrive: Street View Generation with Diverse 3D Geometry Control [82.69871576797166]
多様な3D幾何学制御を提供する新しいストリートビュー生成フレームワークであるMagicDriveを紹介した。
私たちの設計では、複数のカメラビュー間の一貫性を確保するために、クロスビューアテンションモジュールが組み込まれています。
論文 参考訳(メタデータ) (2023-10-04T06:14:06Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。