論文の概要: DriveCtrl: Conditioned Sim-to-Real Driving Video Generation
- arxiv url: http://arxiv.org/abs/2605.15116v1
- Date: Thu, 14 May 2026 17:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.983616
- Title: DriveCtrl: Conditioned Sim-to-Real Driving Video Generation
- Title(参考訳): DriveCtrl:コンディション付きシミュレート・トゥ・リアル・ドライビング・ビデオ・ジェネレーション
- Authors: Haonan Zhao, Yiting Wang, Jingkun Chen, Valentina Donzella, Thomas Bashford-Rogers, Kurt Debattista,
- Abstract要約: DriveCtrlは、リアルな駆動ビデオ合成のための制御可能なsim-to-realビデオ生成フレームワークである。
シミュレーション映像をリアルな実世界のデータセットの視覚スタイルに合わせたリアルな運転映像に変換するスケーラブルなデータ生成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 16.424889754682727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale labelled driving video data is essential for training autonomous driving systems. Although simulation offers scalable and fully annotated data, the domain gap between synthetic and real-world driving videos significantly limits its utility for downstream deployment. Existing video generation methods are not well-suited for this task, as they fail to simultaneously preserve scene structure, object dynamics, temporal consistency, and visual realism, all of which are critical for maintaining annotation validity in generated data. In this paper, we present DriveCtrl, a depth-conditioned controllable sim-to-real video generation framework for realistic driving video synthesis. Built upon a pretrained video foundation model, DriveCtrl introduces a structure-aware adapter that enables depth-guided generation while preserving the scene layout and motion patterns of the source simulation, producing temporally coherent driving videos that remain aligned with the original simulated sequences. We further introduce a scalable data generation pipeline that transforms simulator videos into realistic driving footage matching the visual style of a target real-world dataset. The pipeline supports three conditioning signals: structural depth, reference-dataset style, and text prompts, while preserving frame-level annotations for downstream perception tasks. To better assess this task, we propose a driving-domain-specific knowledge-informed evaluation metric called Driving Video Realism Score (DVRS) that assesses the realism of generated videos. Experiments demonstrate that DriveCtrl consistently outperforms the base model and competing alternatives in realism, temporal quality, and perception task performance, substantially narrowing the sim-to-real gap for driving video generation.
- Abstract(参考訳): 大規模ラベル付き運転映像データは、自動運転システムの訓練に不可欠である。
シミュレーションはスケーラブルで完全に注釈付けされたデータを提供するが、合成ビデオと実世界のドライビングビデオのドメインギャップは、下流への展開においてその有用性を著しく制限している。
既存のビデオ生成方法はシーン構造、オブジェクトのダイナミクス、時間的一貫性、視覚的リアリズムを同時に保存できないため、このタスクには適していない。
本稿では,リアルな駆動ビデオ合成のための深度条件制御型シミュレート・トゥ・リアルビデオ生成フレームワークであるDriveCtrlを提案する。
事前トレーニングされたビデオ基盤モデルに基づいて、DriveCtrlは、ソースシミュレーションのシーンレイアウトと動きパターンを保存しながら、深度誘導型生成を可能にする構造対応アダプタを導入し、元のシミュレートシーケンスに整合した時間的コヒーレントな駆動ビデオを生成する。
さらに,シミュレーション映像をリアルな実世界のデータセットの視覚スタイルに合わせたリアルな運転映像に変換する,スケーラブルなデータ生成パイプラインを導入する。
パイプラインは、構造深度、参照-データセットスタイル、テキストプロンプトの3つの条件信号をサポートし、下流の知覚タスクのためのフレームレベルのアノテーションを保存する。
この課題をよりよく評価するために,ドライビングビデオリアリズムスコア(DVRS)と呼ばれる駆動領域固有の知識インフォームド評価指標を提案し,生成したビデオのリアリズムを評価する。
DriveCtrlは、現実主義、時間的品質、知覚タスクのパフォーマンスにおいて、ベースモデルと競合する代替品を一貫して上回り、ビデオ生成のシミュレートと現実のギャップを大幅に狭めていることを示す実験である。
関連論文リスト
- LSA: Localized Semantic Alignment for Enhancing Temporal Consistency in Traffic Video Generation [44.62533878314138]
ローカライズドセマンティックアライメント(Localized Semantic Alignment、LSA)は、トレーニング済みのビデオ生成モデルを微調整するためのフレームワークである。
LSAは、接地木と生成されたビデオクリップ間の意味的特徴を整列することで、時間的一貫性を高める。
nuScenesとKITTIデータセットの実験は、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2026-02-05T18:21:02Z) - InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation [53.47253633654885]
InstaDriveは、2つの重要な進歩を通じてビデオリアリズムを促進する新しいフレームワークである。
これらのインスタンス認識機構を組み込むことで、InstaDriveは最先端のビデオ生成品質を実現する。
私たちのプロジェクトページはhttps://shanpoyang654.io/InstaDrive/page.htmlです。
論文 参考訳(メタデータ) (2026-02-03T08:22:13Z) - Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。
Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。
空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-06T18:59:56Z) - From Dashcam Videos to Driving Simulations: Stress Testing Automated Vehicles against Rare Events [5.132984904858975]
現実的な運転シナリオを用いたシミュレーションにおける自動運転システム(ADS)のテストは、その性能を検証する上で重要である。
本稿では,現実の自動車事故映像の詳細なシミュレーションシナリオへの変換を自動化する新しいフレームワークを提案する。
予備結果は,完全自動化と人的介入を伴わず,リアルタイム変換を数分で完了させるという,かなりの時間効率を示した。
論文 参考訳(メタデータ) (2024-11-25T01:01:54Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - SimGen: Simulator-conditioned Driving Scene Generation [50.03358485083602]
シミュレーション条件付きシーン生成フレームワークSimGenを紹介する。
SimGenは、シミュレータと現実世界のデータを混ぜることで、多様な運転シーンを生成することを学ぶ。
テキストプロンプトとシミュレータからのレイアウトに基づいて制御性を保ちながら、優れた生成品質と多様性を実現する。
論文 参考訳(メタデータ) (2024-06-13T17:58:32Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。