論文の概要: DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
- arxiv url: http://arxiv.org/abs/2410.13571v3
- Date: Mon, 25 Nov 2024 07:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:16.383128
- Title: DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
- Title(参考訳): DriveDreamer4D:世界モデルは4D運転シーン表現に有効なデータマシン
- Authors: Guosheng Zhao, Chaojun Ni, Xiaofeng Wang, Zheng Zhu, Xueyang Zhang, Yida Wang, Guan Huang, Xinze Chen, Boyuan Wang, Youyi Zhang, Wenjun Mei, Xingang Wang,
- Abstract要約: 本稿では,世界モデルの先行モデルを利用した4次元運転シーン表現を強化するDriveDreamer4Dを紹介する。
われわれの知る限り、DriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用する最初の企業である。
- 参考スコア(独自算出の注目度): 32.19534057884047
- License:
- Abstract: Closed-loop simulation is essential for advancing end-to-end autonomous driving systems. Contemporary sensor simulation methods, such as NeRF and 3DGS, rely predominantly on conditions closely aligned with training data distributions, which are largely confined to forward-driving scenarios. Consequently, these methods face limitations when rendering complex maneuvers (e.g., lane change, acceleration, deceleration). Recent advancements in autonomous-driving world models have demonstrated the potential to generate diverse driving videos. However, these approaches remain constrained to 2D video generation, inherently lacking the spatiotemporal coherence required to capture intricacies of dynamic driving environments. In this paper, we introduce DriveDreamer4D, which enhances 4D driving scene representation leveraging world model priors. Specifically, we utilize the world model as a data machine to synthesize novel trajectory videos, where structured conditions are explicitly leveraged to control the spatial-temporal consistency of traffic elements. Besides, the cousin data training strategy is proposed to facilitate merging real and synthetic data for optimizing 4DGS. To our knowledge, DriveDreamer4D is the first to utilize video generation models for improving 4D reconstruction in driving scenarios. Experimental results reveal that DriveDreamer4D significantly enhances generation quality under novel trajectory views, achieving a relative improvement in FID by 32.1%, 46.4%, and 16.3% compared to PVG, S3Gaussian, and Deformable-GS. Moreover, DriveDreamer4D markedly enhances the spatiotemporal coherence of driving agents, which is verified by a comprehensive user study and the relative increases of 22.6%, 43.5%, and 15.6% in the NTA-IoU metric.
- Abstract(参考訳): 閉ループシミュレーションは、エンド・ツー・エンドの自動運転システムに不可欠である。
現代のセンサシミュレーション手法であるNeRFや3DGSは、主に前方走行のシナリオに限られるトレーニングデータ分布と密接に整合した条件に依存している。
その結果、複雑な操作(例えば、車線変更、加速、減速)をレンダリングする場合、これらの手法は制限に直面します。
自動運転の世界モデルの最近の進歩は、多様な運転ビデオを生成する可能性を実証している。
しかし、これらのアプローチは、動的駆動環境の複雑さを捉えるのに必要な時空間コヒーレンスを欠いているため、2Dビデオ生成に制約が残されている。
本稿では,世界モデルの先行モデルを利用した4次元運転シーン表現を強化するDriveDreamer4Dを紹介する。
具体的には,世界モデルをデータマシンとして利用して,交通要素の空間的時間的整合性を制御するために,構造化条件を明示的に活用する,新しいトラジェクトリビデオの合成を行う。
さらに、4DGSを最適化するために、実データと合成データをマージしやすくするため、従兄弟データトレーニング戦略を提案する。
われわれの知る限り、DriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用する最初の企業である。
DriveDreamer4Dは、PVG、S3Gaussian、Deformable-GSと比較して、FIDを32.1%、46.4%、および16.3%改善した。
さらに、DriveDreamer4Dは運転エージェントの時空間的コヒーレンスを著しく向上させ、これは総合的なユーザー調査によって検証され、NTA-IoU測定値では22.6%、43.5%、および15.6%の相対的な増加を示す。
関連論文リスト
- DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。
具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。
次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文 参考訳(メタデータ) (2024-12-31T18:59:57Z) - Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。
Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。
空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-06T18:59:56Z) - ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration [30.755679955159504]
ReconDreamerは、世界モデル知識の漸進的な統合を通じて、ドライブシーンの再構築を強化する。
私たちの知る限りでは、ReconDreamerは大規模な操作で効果的にレンダリングする最初の方法です。
論文 参考訳(メタデータ) (2024-11-29T08:47:46Z) - DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation [54.02069690134526]
本研究では,現実的でクローズドループなシミュレーションフレームワークであるDrivingSphereを提案する。
その中核となる考え方は、4Dの世界表現を構築し、実生活と制御可能な運転シナリオを生成することである。
動的で現実的なシミュレーション環境を提供することで、DrivingSphereは自律運転アルゴリズムの包括的なテストと検証を可能にする。
論文 参考訳(メタデータ) (2024-11-18T03:00:33Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
制御可能な生成を可能にするために,速度,操舵角度,軌道,指令などの柔軟な動作条件を世界モデルに注入することを提案する。
本手法は,多目的かつ制御可能な4D占有率を創出し,次世代の運転とエンド・ツー・エンド・プランニングの進歩への道を開く。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。