論文の概要: Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models
- arxiv url: http://arxiv.org/abs/2506.09042v1
- Date: Tue, 10 Jun 2025 17:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:43.068974
- Title: Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models
- Title(参考訳): Cosmos-Drive-Dreams: World Foundation Modelsによるスケーラブルな合成駆動データ生成
- Authors: Xuanchi Ren, Yifan Lu, Tianshi Cao, Ruiyuan Gao, Shengyu Huang, Amirmojtaba Sabour, Tianchang Shen, Tobias Pfaff, Jay Zhangjie Wu, Runjian Chen, Seung Wook Kim, Jun Gao, Laura Leal-Taixe, Mike Chen, Sanja Fidler, Huan Ling,
- Abstract要約: 私たちは,挑戦的なシナリオを生成することを目的とした,合成データ生成パイプラインであるCosmos-Drive-Dreamsを紹介した。
このパイプラインを駆動するCosmos-Driveは、運転ドメインのためのNVIDIA Cosmosファウンデーションモデルに特化したモデルのスイートである。
高忠実で挑戦的なシナリオで運転の量と多様性を拡大するためにコスモス・ドライブ・ドレームを応用することで、これらのモデルの有用性を実証する。
- 参考スコア(独自算出の注目度): 59.30855532305708
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Collecting and annotating real-world data for safety-critical physical AI systems, such as Autonomous Vehicle (AV), is time-consuming and costly. It is especially challenging to capture rare edge cases, which play a critical role in training and testing of an AV system. To address this challenge, we introduce the Cosmos-Drive-Dreams - a synthetic data generation (SDG) pipeline that aims to generate challenging scenarios to facilitate downstream tasks such as perception and driving policy training. Powering this pipeline is Cosmos-Drive, a suite of models specialized from NVIDIA Cosmos world foundation model for the driving domain and are capable of controllable, high-fidelity, multi-view, and spatiotemporally consistent driving video generation. We showcase the utility of these models by applying Cosmos-Drive-Dreams to scale the quantity and diversity of driving datasets with high-fidelity and challenging scenarios. Experimentally, we demonstrate that our generated data helps in mitigating long-tail distribution problems and enhances generalization in downstream tasks such as 3D lane detection, 3D object detection and driving policy learning. We open source our pipeline toolkit, dataset and model weights through the NVIDIA's Cosmos platform. Project page: https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams
- Abstract(参考訳): 自律走行車(AV)のような安全クリティカルな物理AIシステムのための現実世界のデータ収集と注釈付けには時間と費用がかかる。
特に、AVシステムのトレーニングとテストにおいて重要な役割を果たす稀なエッジケースを捕捉することは困難である。
この課題に対処するために、私たちはCosmos-Drive-Dreamsという合成データ生成(SDG)パイプラインを導入しました。
このパイプラインを駆動するCosmos-Driveは、NVIDIA Cosmos World foundation model for the driving domainを専門とする一連のモデルであり、制御可能、高忠実、マルチビュー、時空間的に一貫した駆動ビデオ生成を可能にする。
高忠実で挑戦的なシナリオで駆動データセットの量と多様性をスケールするために、Cosmos-Drive-Dreamsを適用することで、これらのモデルの有用性を実証する。
実験により, 生成したデータは, 長期分布問題を緩和し, 3次元車線検出, 3次元物体検出, 運転ポリシー学習などの下流タスクの一般化を促進することが実証された。
NVIDIAのCosmosプラットフォームを通じて、パイプラインツールキット、データセット、モデルウェイトをオープンソースにしています。
プロジェクトページ: https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams
関連論文リスト
- SimWorld: A Unified Benchmark for Simulator-Conditioned Scene Generation via World Model [1.3700170633913733]
本稿では,世界モデルに基づくシミュレーション条件付きシーン生成エンジンを提案する。
実世界のシーンと一致したシミュレーションシステムを構築することで、シミュレーションデータとラベルを世界モデルにおけるデータ生成の条件として、任意のシーンに対して収集することができる。
その結果,これらの画像は下流知覚モデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-18T06:41:02Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model [6.144680854063938]
GenDDSは、自律運転システムの運転シナリオを生成するための新しいアプローチである。
我々は、実際の運転ビデオを含むKITTIデータセットを使用して、モデルをトレーニングする。
実世界の運転シナリオの複雑さと変動性を密に再現した高品質な運転映像を,我々のモデルで生成できることを実証した。
論文 参考訳(メタデータ) (2024-08-28T15:37:44Z) - SimGen: Simulator-conditioned Driving Scene Generation [50.03358485083602]
シミュレーション条件付きシーン生成フレームワークSimGenを紹介する。
SimGenは、シミュレータと現実世界のデータを混ぜることで、多様な運転シーンを生成することを学ぶ。
テキストプロンプトとシミュレータからのレイアウトに基づいて制御性を保ちながら、優れた生成品質と多様性を実現する。
論文 参考訳(メタデータ) (2024-06-13T17:58:32Z) - DriveDreamer: Towards Real-world-driven World Models for Autonomous
Driving [76.24483706445298]
実世界の運転シナリオから完全に派生した世界モデルであるDriveDreamerを紹介する。
最初の段階では、DriveDreamerは構造化されたトラフィックの制約を深く理解し、次の段階では将来の状態を予測できる。
DriveDreamerは、現実的で合理的な運転ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。
論文 参考訳(メタデータ) (2023-09-18T13:58:42Z) - IDD-3D: Indian Driving Dataset for 3D Unstructured Road Scenes [79.18349050238413]
デプロイ可能なディープラーニングアーキテクチャの準備とトレーニングには、さまざまなトラフィックシナリオに適したモデルが必要である。
インドなどいくつかの発展途上国で見られる非構造的で複雑な運転レイアウトは、これらのモデルに挑戦している。
我々は、複数のカメラと12kの注釈付き駆動LiDARフレームを備えたLiDARセンサーのマルチモーダルデータからなる新しいデータセットIDD-3Dを構築した。
論文 参考訳(メタデータ) (2022-10-23T23:03:17Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。