論文の概要: DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
- arxiv url: http://arxiv.org/abs/2410.13571v2
- Date: Mon, 21 Oct 2024 09:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:05.903851
- Title: DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
- Title(参考訳): DriveDreamer4D:世界モデルは4D運転シーン表現に有効なデータマシン
- Authors: Guosheng Zhao, Chaojun Ni, Xiaofeng Wang, Zheng Zhu, Xueyang Zhang, Yida Wang, Guan Huang, Xinze Chen, Boyuan Wang, Youyi Zhang, Wenjun Mei, Xingang Wang,
- Abstract要約: 本稿では,世界モデルの先行モデルを利用した4次元運転シーン表現を強化するDriveDreamer4Dを紹介する。
具体的には、実世界の運転データに基づいて、新しい軌跡映像を合成するために、ワールドモデルをデータマシンとして利用する。
われわれの知る限り、DriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用する最初の企業である。
- 参考スコア(独自算出の注目度): 32.19534057884047
- License:
- Abstract: Closed-loop simulation is essential for advancing end-to-end autonomous driving systems. Contemporary sensor simulation methods, such as NeRF and 3DGS, rely predominantly on conditions closely aligned with training data distributions, which are largely confined to forward-driving scenarios. Consequently, these methods face limitations when rendering complex maneuvers (e.g., lane change, acceleration, deceleration). Recent advancements in autonomous-driving world models have demonstrated the potential to generate diverse driving videos. However, these approaches remain constrained to 2D video generation, inherently lacking the spatiotemporal coherence required to capture intricacies of dynamic driving environments. In this paper, we introduce DriveDreamer4D, which enhances 4D driving scene representation leveraging world model priors. Specifically, we utilize the world model as a data machine to synthesize novel trajectory videos based on real-world driving data. Notably, we explicitly leverage structured conditions to control the spatial-temporal consistency of foreground and background elements, thus the generated data adheres closely to traffic constraints. To our knowledge, DriveDreamer4D is the first to utilize video generation models for improving 4D reconstruction in driving scenarios. Experimental results reveal that DriveDreamer4D significantly enhances generation quality under novel trajectory views, achieving a relative improvement in FID by 24.5%, 39.0%, and 10.5% compared to PVG, S3Gaussian, and Deformable-GS. Moreover, DriveDreamer4D markedly enhances the spatiotemporal coherence of driving agents, which is verified by a comprehensive user study and the relative increases of 20.3%, 42.0%, and 13.7% in the NTA-IoU metric.
- Abstract(参考訳): 閉ループシミュレーションは、エンド・ツー・エンドの自動運転システムに不可欠である。
現代のセンサシミュレーション手法であるNeRFや3DGSは、主に前方走行のシナリオに限られるトレーニングデータ分布と密接に整合した条件に依存している。
その結果、複雑な操作(例えば、車線変更、加速、減速)をレンダリングする場合、これらの手法は制限に直面します。
自動運転の世界モデルの最近の進歩は、多様な運転ビデオを生成する可能性を実証している。
しかし、これらのアプローチは、動的駆動環境の複雑さを捉えるのに必要な時空間コヒーレンスを欠いているため、2Dビデオ生成に制約が残されている。
本稿では,世界モデルの先行モデルを利用した4次元運転シーン表現を強化するDriveDreamer4Dを紹介する。
具体的には、実世界の運転データに基づいて、新しい軌跡映像を合成するために、ワールドモデルをデータマシンとして利用する。
特に,前景および背景要素の空間的時間的整合性を制御するために,構造化条件を明示的に活用するので,生成したデータは交通制約に密接に依存する。
われわれの知る限り、DriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用する最初の企業である。
DriveDreamer4Dは、PVG、S3Gaussian、Deformable-GSと比較して、FIDの24.5%、39.0%、および10.5%の相対的な改善を実現している。
さらに、DriveDreamer4Dは運転エージェントの時空間コヒーレンスを著しく向上させ、NTA-IoU測定値の20.3%、42.0%、13.7%の相対的な増加を総合的なユーザスタディで検証した。
関連論文リスト
- OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - OASim: an Open and Adaptive Simulator based on Neural Rendering for
Autonomous Driving [11.682732129252118]
OASimはオープンで適応的なシミュレータであり、暗黙のニューラルレンダリングに基づく自律運転データ生成装置である。
アルゴリズムのクローズドループシステムでは、データは中心的な役割を果たすが、実際のデータの収集は高価で、時間がかかり、安全ではない。
論文 参考訳(メタデータ) (2024-02-06T09:19:44Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。