論文の概要: DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
- arxiv url: http://arxiv.org/abs/2410.13571v1
- Date: Thu, 17 Oct 2024 14:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:35.525620
- Title: DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
- Title(参考訳): DriveDreamer4D:世界モデルは4D運転シーン表現に有効なデータマシン
- Authors: Guosheng Zhao, Chaojun Ni, Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Boyuan Wang, Youyi Zhang, Wenjun Mei, Xingang Wang,
- Abstract要約: textitDriveDreamer4Dを導入し,世界モデルの先行モデルを利用した4次元運転シーン表現を強化した。
われわれの知る限り、TextitDriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用した最初のものである。
- 参考スコア(独自算出の注目度): 28.624691451021615
- License:
- Abstract: Closed-loop simulation is essential for advancing end-to-end autonomous driving systems. Contemporary sensor simulation methods, such as NeRF and 3DGS, rely predominantly on conditions closely aligned with training data distributions, which are largely confined to forward-driving scenarios. Consequently, these methods face limitations when rendering complex maneuvers (e.g., lane change, acceleration, deceleration). Recent advancements in autonomous-driving world models have demonstrated the potential to generate diverse driving videos. However, these approaches remain constrained to 2D video generation, inherently lacking the spatiotemporal coherence required to capture intricacies of dynamic driving environments. In this paper, we introduce \textit{DriveDreamer4D}, which enhances 4D driving scene representation leveraging world model priors. Specifically, we utilize the world model as a data machine to synthesize novel trajectory videos based on real-world driving data. Notably, we explicitly leverage structured conditions to control the spatial-temporal consistency of foreground and background elements, thus the generated data adheres closely to traffic constraints. To our knowledge, \textit{DriveDreamer4D} is the first to utilize video generation models for improving 4D reconstruction in driving scenarios. Experimental results reveal that \textit{DriveDreamer4D} significantly enhances generation quality under novel trajectory views, achieving a relative improvement in FID by 24.5\%, 39.0\%, and 10.5\% compared to PVG, $\text{S}^3$Gaussian, and Deformable-GS. Moreover, \textit{DriveDreamer4D} markedly enhances the spatiotemporal coherence of driving agents, which is verified by a comprehensive user study and the relative increases of 20.3\%, 42.0\%, and 13.7\% in the NTA-IoU metric.
- Abstract(参考訳): 閉ループシミュレーションは、エンド・ツー・エンドの自動運転システムに不可欠である。
現代のセンサシミュレーション手法であるNeRFや3DGSは、主に前方走行のシナリオに限られるトレーニングデータ分布と密接に整合した条件に依存している。
その結果、複雑な操作(例えば、車線変更、加速、減速)をレンダリングする場合、これらの手法は制限に直面します。
自動運転の世界モデルの最近の進歩は、多様な運転ビデオを生成する可能性を実証している。
しかし、これらのアプローチは、動的駆動環境の複雑さを捉えるのに必要な時空間コヒーレンスを欠いているため、2Dビデオ生成に制約が残されている。
本稿では,世界モデルに先行する4次元運転シーン表現を向上する「textit{DriveDreamer4D}」を紹介する。
具体的には、実世界の運転データに基づいて、新しい軌跡映像を合成するために、ワールドモデルをデータマシンとして利用する。
特に,前景および背景要素の空間的時間的整合性を制御するために,構造化条件を明示的に活用するので,生成したデータは交通制約に密接に依存する。
我々の知る限り, 運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを最初に利用したのは, \textit{DriveDreamer4D} である。
実験の結果, 新規軌跡ビューでは生成品質が著しく向上し, PVG, $\text{S}^3$Gaussian, Deformable-GSに比べてFIDが24.5\%, 39.0\%, 10.5\%向上した。
さらに、 \textit{DriveDreamer4D} は運転エージェントの時空間コヒーレンスを著しく向上させ、これは総合的なユーザー調査によって検証され、NTA-IoU測定値では20.3\%、42.0\%、13.7\%の相対的な増加を示す。
関連論文リスト
- DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model [6.144680854063938]
GenDDSは、自律運転システムの運転シナリオを生成するための新しいアプローチである。
我々は、実際の運転ビデオを含むKITTIデータセットを使用して、モデルをトレーニングする。
実世界の運転シナリオの複雑さと変動性を密に再現した高品質な運転映像を,我々のモデルで生成できることを実証した。
論文 参考訳(メタデータ) (2024-08-28T15:37:44Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
本研究では, 速度, 操舵角度, 軌道, 指令などの柔軟な動作条件を世界モデルに注入することを提案する。
nuScenesデータセットの実験により,本手法は可塑性かつ制御可能な4D占有率を生成可能であることが示された。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - DrivAerNet: A Parametric Car Dataset for Data-Driven Aerodynamic Design
and Graph-Based Drag Prediction [30.697742505713254]
本研究では,3次元産業標準車形状の大規模高速CFDデータセットであるDrivAerNetと,動的グラフ畳み込みニューラルネットワークモデルであるRegDGCNNを紹介する。
DrivAerNetとRegDGCNNは共に、車の設計プロセスを加速し、より効率的な車両の開発に貢献することを約束している。
論文 参考訳(メタデータ) (2024-03-12T20:02:39Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。