論文の概要: SimGen: Simulator-conditioned Driving Scene Generation
- arxiv url: http://arxiv.org/abs/2406.09386v2
- Date: Mon, 28 Oct 2024 07:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:13:58.482535
- Title: SimGen: Simulator-conditioned Driving Scene Generation
- Title(参考訳): SimGen:シミュレータによる運転シーン生成
- Authors: Yunsong Zhou, Michael Simon, Zhenghao Peng, Sicheng Mo, Hongzi Zhu, Minyi Guo, Bolei Zhou,
- Abstract要約: シミュレーション条件付きシーン生成フレームワークSimGenを紹介する。
SimGenは、シミュレータと現実世界のデータを混ぜることで、多様な運転シーンを生成することを学ぶ。
テキストプロンプトとシミュレータからのレイアウトに基づいて制御性を保ちながら、優れた生成品質と多様性を実現する。
- 参考スコア(独自算出の注目度): 50.03358485083602
- License:
- Abstract: Controllable synthetic data generation can substantially lower the annotation cost of training data. Prior works use diffusion models to generate driving images conditioned on the 3D object layout. However, those models are trained on small-scale datasets like nuScenes, which lack appearance and layout diversity. Moreover, overfitting often happens, where the trained models can only generate images based on the layout data from the validation set of the same dataset. In this work, we introduce a simulator-conditioned scene generation framework called SimGen that can learn to generate diverse driving scenes by mixing data from the simulator and the real world. It uses a novel cascade diffusion pipeline to address challenging sim-to-real gaps and multi-condition conflicts. A driving video dataset DIVA is collected to enhance the generative diversity of SimGen, which contains over 147.5 hours of real-world driving videos from 73 locations worldwide and simulated driving data from the MetaDrive simulator. SimGen achieves superior generation quality and diversity while preserving controllability based on the text prompt and the layout pulled from a simulator. We further demonstrate the improvements brought by SimGen for synthetic data augmentation on the BEV detection and segmentation task and showcase its capability in safety-critical data generation.
- Abstract(参考訳): 制御可能な合成データ生成は、トレーニングデータのアノテーションコストを大幅に削減することができる。
以前の研究では、拡散モデルを使用して、3Dオブジェクトレイアウトで条件付けられた駆動画像を生成する。
しかしながら、これらのモデルは、外観やレイアウトの多様性に欠けるnuScenesのような小規模データセットでトレーニングされている。
さらに、オーバーフィッティングは頻繁に発生し、トレーニングされたモデルは同じデータセットの検証セットからレイアウトデータに基づいて画像しか生成できない。
そこで本研究では,シミュレータと実世界のデータを混在させることで,多様な走行シーンを生成できるSimGenというシミュレータ条件付きシーン生成フレームワークを提案する。
これは新しいカスケード拡散パイプラインを使用して、挑戦的なsim-to-realギャップとマルチコンディション競合に対処する。
SimGenは世界中の73の場所から147.5時間以上の実世界の運転ビデオを収集し、MetaDriveシミュレータからの運転データをシミュレートする。
SimGenは、テキストプロンプトとシミュレータから取り出されたレイアウトに基づいて、制御性を維持しながら、優れた生成品質と多様性を達成する。
さらに,BEV検出およびセグメンテーションタスクにおける合成データ拡張のためのSimGenによる改善を実証し,安全クリティカルなデータ生成におけるその能力を示す。
関連論文リスト
- GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model [6.144680854063938]
GenDDSは、自律運転システムの運転シナリオを生成するための新しいアプローチである。
我々は、実際の運転ビデオを含むKITTIデータセットを使用して、モデルをトレーニングする。
実世界の運転シナリオの複雑さと変動性を密に再現した高品質な運転映像を,我々のモデルで生成できることを実証した。
論文 参考訳(メタデータ) (2024-08-28T15:37:44Z) - Exploring Generative AI for Sim2Real in Driving Data Synthesis [6.769182994217369]
ドライビングシミュレータは、対応するアノテーションで様々なドライビングシナリオを自動的に生成するソリューションを提供するが、シミュレーションとリアリティ(Sim2Real)ドメインギャップは依然として課題である。
本稿では,現実的なデータセット作成のためのブリッジとして,運転シミュレータからのセマンティックラベルマップを活用するために,3つの異なる生成AI手法を適用した。
実験の結果,手動のアノテートラベルが提供されると,GANベースの手法は高品質な画像を生成するには適しているが,ControlNetは,シミュレータ生成ラベルを使用すると,より少ないアーティファクトとより構造的忠実度を持つ合成データセットを生成することがわかった。
論文 参考訳(メタデータ) (2024-04-14T01:23:19Z) - S-NeRF++: Autonomous Driving Simulation via Neural Reconstruction and Generation [21.501865765631123]
S-NeRF++は神経再構成に基づく革新的な自律運転シミュレーションシステムである。
S-NeRF++は、nuScenesやradianceなど、広く使われている自動運転データセットでトレーニングされている。
システムは、ノイズとスパースLiDARデータを効果的に利用して、トレーニングを洗練し、奥行きの外れ値に対処する。
論文 参考訳(メタデータ) (2024-02-03T10:35:42Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Language Conditioned Traffic Generation [37.71751991840586]
LCTGenは、トランスフォーマーベースのデコーダアーキテクチャを備えた、大規模な言語モデルである。
初期トラフィック分布と各車両のダイナミックスを生成する。
LCTGenは、非条件と条件付きの両方のトラフィックシーン生成において、リアリズムと忠実さの点で、事前の作業よりも優れています。
論文 参考訳(メタデータ) (2023-07-16T05:10:32Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。