論文の概要: SafeMVDrive: Multi-view Safety-Critical Driving Video Synthesis in the Real World Domain
- arxiv url: http://arxiv.org/abs/2505.17727v1
- Date: Fri, 23 May 2025 10:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.007471
- Title: SafeMVDrive: Multi-view Safety-Critical Driving Video Synthesis in the Real World Domain
- Title(参考訳): SafeMVDrive:実世界ドメインにおけるマルチビュー安全クリティカルドライビングビデオ合成
- Authors: Jiawei Zhou, Linye Lyu, Zhuotao Tian, Cheng Zhuo, Yu Li,
- Abstract要約: セーフMVDrive(SafeMVDrive)は、現実世界のドメインをベースとした安全クリティカルでマルチビューなドライビングビデオを生成するためのフレームワークである。
まず、視覚的コンテキストを取り入れた軌跡生成装置のシーン理解能力を向上する。
衝突回避軌道を生成する2段階制御可能な軌道生成機構を導入する。
- 参考スコア(独自算出の注目度): 25.44145750579996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-critical scenarios are rare yet pivotal for evaluating and enhancing the robustness of autonomous driving systems. While existing methods generate safety-critical driving trajectories, simulations, or single-view videos, they fall short of meeting the demands of advanced end-to-end autonomous systems (E2E AD), which require real-world, multi-view video data. To bridge this gap, we introduce SafeMVDrive, the first framework designed to generate high-quality, safety-critical, multi-view driving videos grounded in real-world domains. SafeMVDrive strategically integrates a safety-critical trajectory generator with an advanced multi-view video generator. To tackle the challenges inherent in this integration, we first enhance scene understanding ability of the trajectory generator by incorporating visual context -- which is previously unavailable to such generator -- and leveraging a GRPO-finetuned vision-language model to achieve more realistic and context-aware trajectory generation. Second, recognizing that existing multi-view video generators struggle to render realistic collision events, we introduce a two-stage, controllable trajectory generation mechanism that produces collision-evasion trajectories, ensuring both video quality and safety-critical fidelity. Finally, we employ a diffusion-based multi-view video generator to synthesize high-quality safety-critical driving videos from the generated trajectories. Experiments conducted on an E2E AD planner demonstrate a significant increase in collision rate when tested with our generated data, validating the effectiveness of SafeMVDrive in stress-testing planning modules. Our code, examples, and datasets are publicly available at: https://zhoujiawei3.github.io/SafeMVDrive/.
- Abstract(参考訳): 安全クリティカルなシナリオは、自律運転システムの堅牢性を評価し、強化する上で極めて重要である。
既存の手法は、安全クリティカルな運転軌跡、シミュレーション、シングルビュービデオを生成するが、現実のマルチビュービデオデータを必要とする高度なエンドツーエンド自律システム(E2E AD)の要求を満たすには至っていない。
このギャップを埋めるために、私たちはSafeMVDriveを紹介します。これは、現実世界のドメインに根ざした高品質で安全クリティカルでマルチビューなドライビングビデオを生成するために設計された最初のフレームワークです。
SafeMVDriveは、安全クリティカルな軌道ジェネレータと高度な多視点ビデオジェネレータを戦略的に統合する。
この統合に固有の課題に対処するために,我々はまず,視覚的コンテキスト(以前はそのような生成装置では利用できない)を取り入れ,GRPOに精細化された視覚言語モデルを活用して,より現実的でコンテキスト対応な軌跡生成を実現することにより,軌道生成装置のシーン理解能力を向上する。
第二に、既存の多視点ビデオジェネレータが現実的な衝突イベントのレンダリングに苦労していることを認識し、衝突回避軌道を生成する2段階の制御可能な軌道生成機構を導入し、映像の品質と安全性を両立させる。
最後に,拡散型多視点ビデオ生成装置を用いて,生成した軌道から高品質な安全クリティカルな運転映像を合成する。
E2E ADプランナで行った実験では, 生成したデータと衝突する速度が有意に増加し, ストレス試験計画モジュールにおけるSafeMVDriveの有効性が検証された。
私たちのコード、例、データセットは、https://zhoujiawei3.github.io/SafeMVDrive/.comで公開されています。
関連論文リスト
- Challenger: Affordable Adversarial Driving Video Generation [36.949064774296076]
Challenger(チャレンジャー)は、物理的に可視だがフォトリアリスティックな対向駆動ビデオを生成するフレームワークである。
nuScenesデータセットでテストされているように、Challengeはさまざまなアグレッシブな駆動シナリオを生成する。
論文 参考訳(メタデータ) (2025-05-21T17:59:55Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。
構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - Driving-Video Dehazing with Non-Aligned Regularization for Safety Assistance [24.671417176179187]
実際のドライビングビデオのデハージングは、正確に整列/クリアなビデオペアを取得するのが本質的に困難であるため、大きな課題となる。
非整合正規化戦略を通じてこの問題に対処する先駆的なアプローチを提案する。
このアプローチは、参照マッチングとビデオデハージングの2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-05-16T11:28:01Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。