論文の概要: Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
- arxiv url: http://arxiv.org/abs/2510.19195v2
- Date: Fri, 24 Oct 2025 10:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.232657
- Title: Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
- Title(参考訳): 知覚課題のための合成データ生成装置としての運転世界モデルの再考
- Authors: Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang,
- Abstract要約: 下流認識タスクを強化するための新しい合成データ生成フレームワークであるDream4Driveを紹介する。
Dream4Driveは入力ビデオを複数の3D対応誘導マップに分解し、これらの誘導マップに3Dアセットをレンダリングする。
駆動世界モデルは、下流の知覚モデルをトレーニングするために使用できる編集されたマルチビュービデオを作成するために微調整される。
- 参考スコア(独自算出の注目度): 33.747369815484326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in driving world models enable controllable generation of high-quality RGB videos or multimodal videos. Existing methods primarily focus on metrics related to generation quality and controllability. However, they often overlook the evaluation of downstream perception tasks, which are $\mathbf{really\ crucial}$ for the performance of autonomous driving. Existing methods usually leverage a training strategy that first pretrains on synthetic data and finetunes on real data, resulting in twice the epochs compared to the baseline (real data only). When we double the epochs in the baseline, the benefit of synthetic data becomes negligible. To thoroughly demonstrate the benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data generation framework designed for enhancing the downstream perception tasks. Dream4Drive first decomposes the input video into several 3D-aware guidance maps and subsequently renders the 3D assets onto these guidance maps. Finally, the driving world model is fine-tuned to produce the edited, multi-view photorealistic videos, which can be used to train the downstream perception models. Dream4Drive enables unprecedented flexibility in generating multi-view corner cases at scale, significantly boosting corner case perception in autonomous driving. To facilitate future research, we also contribute a large-scale 3D asset dataset named DriveObj3D, covering the typical categories in driving scenarios and enabling diverse 3D-aware video editing. We conduct comprehensive experiments to show that Dream4Drive can effectively boost the performance of downstream perception models under various training epochs. Page: https://wm-research.github.io/Dream4Drive/ GitHub Link: https://github.com/wm-research/Dream4Drive
- Abstract(参考訳): ドライビングワールドモデルの最近の進歩により、高品質なRGBビデオやマルチモーダルビデオの制御可能な生成が可能になる。
既存の手法は主に、生成品質と制御可能性に関連するメトリクスに焦点を当てている。
しかし、彼らはしばしば下流認識タスクの評価を見落としており、これは自動運転の性能について$\mathbf{really\ important}$である。
既存の手法は通常、合成データに先んじて訓練を施し、実際のデータに精巧に調整する訓練戦略を利用しており、結果としてベースライン(実際のデータのみ)と比較して2倍のエポックが発生する。
ベースラインのエポックを2倍にすると、合成データの利点は無視される。
合成データの利点を徹底的に示すために,下流認識タスクを強化するために設計された新しい合成データ生成フレームワークであるDream4Driveを紹介した。
Dream4Driveはまず入力ビデオを複数の3D対応誘導マップに分解し、3Dアセットをこれらの誘導マップに描画する。
最後に、駆動世界モデルは、下流の知覚モデルをトレーニングするために使用できる編集された多視点フォトリアリスティックビデオを作成するために微調整される。
Dream4Driveは、多視点のコーナーケースを大規模に生成する際の前例のない柔軟性を可能にし、自動運転におけるコーナーケースの認識を著しく向上させる。
今後の研究を容易にするため,DriveObj3Dという大規模3Dアセットデータセットも提供し,駆動シナリオの典型的なカテゴリをカバーし,多様な3D対応ビデオ編集を可能にする。
本研究では,Dream4Driveが様々な訓練エポック下で下流認識モデルの性能を効果的に向上できることを示す包括的実験を行う。
Page: https://wm-research.github.io/Dream4Drive/GitHub Link: https://github.com/wm-research/Dream4Drive
関連論文リスト
- Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models [59.30855532305708]
私たちは,挑戦的なシナリオを生成することを目的とした,合成データ生成パイプラインであるCosmos-Drive-Dreamsを紹介した。
このパイプラインを駆動するCosmos-Driveは、運転ドメインのためのNVIDIA Cosmosファウンデーションモデルに特化したモデルのスイートである。
高忠実で挑戦的なシナリオで運転の量と多様性を拡大するためにコスモス・ドライブ・ドレームを応用することで、これらのモデルの有用性を実証する。
論文 参考訳(メタデータ) (2025-06-10T17:58:17Z) - DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。
具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。
次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文 参考訳(メタデータ) (2024-12-31T18:59:57Z) - DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation [32.19534057884047]
本稿では,世界モデルの先行モデルを利用した4次元運転シーン表現を強化するDriveDreamer4Dを紹介する。
われわれの知る限り、DriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用する最初の企業である。
論文 参考訳(メタデータ) (2024-10-17T14:07:46Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
MagicDrive3Dは、コントロール可能な3Dストリートシーン生成のための新しいフレームワークである。
ロードマップ、3Dオブジェクト、テキスト記述を含むマルチコンディション制御をサポートする。
多様な高品質な3Dドライビングシーンを生成し、任意のビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation [32.30436679335912]
本稿では,DriveDreamerをベースとしたDriveDreamer-2を提案する。
最終的に、生成した駆動ビデオの時間的・空間的コヒーレンスを高めるための統一多視点モデルを提案する。
論文 参考訳(メタデータ) (2024-03-11T16:03:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。