論文の概要: DreamDrive: Generative 4D Scene Modeling from Street View Images
- arxiv url: http://arxiv.org/abs/2501.00601v1
- Date: Tue, 31 Dec 2024 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:31.634173
- Title: DreamDrive: Generative 4D Scene Modeling from Street View Images
- Title(参考訳): DreamDrive:ストリートビュー画像から生成した4Dシーンモデリング
- Authors: Jiageng Mao, Boyi Li, Boris Ivanovic, Yuxiao Chen, Yan Wang, Yurong You, Chaowei Xiao, Danfei Xu, Marco Pavone, Yue Wang,
- Abstract要約: 生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。
具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。
次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
- 参考スコア(独自算出の注目度): 55.45852373799639
- License:
- Abstract: Synthesizing photo-realistic visual observations from an ego vehicle's driving trajectory is a critical step towards scalable training of self-driving models. Reconstruction-based methods create 3D scenes from driving logs and synthesize geometry-consistent driving videos through neural rendering, but their dependence on costly object annotations limits their ability to generalize to in-the-wild driving scenarios. On the other hand, generative models can synthesize action-conditioned driving videos in a more generalizable way but often struggle with maintaining 3D visual consistency. In this paper, we present DreamDrive, a 4D spatial-temporal scene generation approach that combines the merits of generation and reconstruction, to synthesize generalizable 4D driving scenes and dynamic driving videos with 3D consistency. Specifically, we leverage the generative power of video diffusion models to synthesize a sequence of visual references and further elevate them to 4D with a novel hybrid Gaussian representation. Given a driving trajectory, we then render 3D-consistent driving videos via Gaussian splatting. The use of generative priors allows our method to produce high-quality 4D scenes from in-the-wild driving data, while neural rendering ensures 3D-consistent video generation from the 4D scenes. Extensive experiments on nuScenes and street view images demonstrate that DreamDrive can generate controllable and generalizable 4D driving scenes, synthesize novel views of driving videos with high fidelity and 3D consistency, decompose static and dynamic elements in a self-supervised manner, and enhance perception and planning tasks for autonomous driving.
- Abstract(参考訳): エゴ車の走行軌道から写真リアリスティックな視覚観察を合成することは、自動運転モデルのスケーラブルなトレーニングへの重要なステップである。
レコンストラクションベースの手法は、ログの駆動から3Dシーンを作成し、ニューラルレンダリングを通じて幾何一貫性のあるドライビングビデオを合成するが、高価なオブジェクトアノテーションへの依存は、その範囲内ドライビングシナリオに一般化する能力を制限している。
一方、生成モデルはアクション条件付き駆動ビデオをより一般化可能な方法で合成することができるが、しばしば3次元の視覚的一貫性を維持するのに苦労する。
本稿では,生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを紹介し,一般化可能な4D駆動シーンと動的駆動映像を3D整合性で合成する。
具体的には,映像拡散モデルの生成力を生かして,映像参照のシーケンスを合成し,新たなハイブリッドガウス表現を用いてさらに4Dに高める。
走行軌跡が与えられた後、ガウススプラッティングで3D一貫性のある運転ビデオを描画する。
生成前の手法を用いることで、高速な4DシーンをWild内駆動データから生成し、ニューラルレンダリングにより、4Dシーンから3D一貫性のある映像を生成することができる。
nuScenesとストリートビュー画像の大規模な実験により、DreamDriveは制御可能で一般化可能な4Dドライビングシーンを生成し、高い忠実度と3D整合性を持ったドライビングビデオの新しいビューを合成し、静的および動的要素を自己管理的に分解し、自律運転の知覚と計画タスクを強化することができることを示した。
関連論文リスト
- 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - READ: Large-Scale Neural Scene Rendering for Autonomous Driving [21.144110676687667]
自律走行シーンを合成するために,大規模ニューラルレンダリング手法を提案する。
我々のモデルは現実的な運転シーンを合成できるだけでなく、運転シーンの縫い付けや編集もできる。
論文 参考訳(メタデータ) (2022-05-11T14:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。