論文の概要: MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control
- arxiv url: http://arxiv.org/abs/2411.13807v3
- Date: Wed, 05 Mar 2025 07:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:00:13.389271
- Title: MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control
- Title(参考訳): MagicDrive-V2:適応制御による自動運転のための高分解能長ビデオ生成
- Authors: Ruiyuan Gao, Kai Chen, Bo Xiao, Lanqing Hong, Zhenguo Li, Qiang Xu,
- Abstract要約: MagicDrive-V2は、MVDiTブロックと時空間条件エンコーディングを統合し、マルチビュービデオ生成と正確な幾何学的制御を可能にする新しいアプローチである。
これは、解像度が3.3倍、フレーム数が4.4倍のマルチビュー駆動ビデオ合成を可能にする(現在のSOTAと比較)。
- 参考スコア(独自算出の注目度): 68.74166535159311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of diffusion models has greatly improved video synthesis, especially in controllable video generation, which is vital for applications like autonomous driving. Although DiT with 3D VAE has become a standard framework for video generation, it introduces challenges in controllable driving video generation, especially for geometry control, rendering existing control methods ineffective. To address these issues, we propose MagicDrive-V2, a novel approach that integrates the MVDiT block and spatial-temporal conditional encoding to enable multi-view video generation and precise geometric control. Additionally, we introduce an efficient method for obtaining contextual descriptions for videos to support diverse textual control, along with a progressive training strategy using mixed video data to enhance training efficiency and generalizability. Consequently, MagicDrive-V2 enables multi-view driving video synthesis with $3.3\times$ resolution and $4\times$ frame count (compared to current SOTA), rich contextual control, and geometric controls. Extensive experiments demonstrate MagicDrive-V2's ability, unlocking broader applications in autonomous driving.
- Abstract(参考訳): 拡散モデルの急速な進歩は、特に制御可能なビデオ生成において、ビデオ合成を大幅に改善した。
3D VAEを用いたDiTは、ビデオ生成の標準フレームワークとなっているが、特に幾何学制御において、既存の制御方法を非効率にレンダリングする上で、制御可能な駆動ビデオ生成の課題を提起している。
これらの問題に対処するために,MVDiTブロックと時空間条件エンコーディングを統合し,多視点ビデオ生成と精密幾何制御を可能にするMagicDrive-V2を提案する。
さらに、多様なテキスト制御をサポートするためのビデオの文脈記述を得るための効率的な方法と、混合ビデオデータを用いたプログレッシブトレーニング戦略を導入し、トレーニング効率と一般化性を向上させる。
その結果、MagicDrive-V2は3.3\times$解像度と4.3\times$フレームカウント(現在のSOTAと比較)、リッチコンテキスト制御、幾何制御によるマルチビュー駆動ビデオ合成を可能にした。
大規模な実験では、MagicDrive-V2の能力を実証し、自動運転の幅広い応用を解き放つ。
関連論文リスト
- CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving [25.156989992025625]
本研究では,空間適応型生成フレームワークCoGenを導入し,高3次元一貫性で制御可能なマルチビュービデオを実現する。
粗い2次元条件を微細な3次元表現に置き換えることで,生成した映像の空間的整合性を大幅に向上させる。
以上の結果から, この手法は, 自律運転のための信頼性の高い映像生成ソリューションとして, 幾何学的忠実度と視覚的リアリズムの保存に優れることが示された。
論文 参考訳(メタデータ) (2025-03-28T08:27:05Z) - Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control [73.10569113380775]
Diffusion as Shader (DaS)は、統一アーキテクチャ内で複数のビデオ制御タスクをサポートする新しいアプローチである。
DaSは3D追跡ビデオを制御入力として利用し、ビデオ拡散過程を本質的に3D対応にしている。
DaSは、メッシュ・ツー・ビデオ生成、カメラ制御、モーション転送、オブジェクト操作など、さまざまなタスクにわたる強力なコントロール機能を示している。
論文 参考訳(メタデータ) (2025-01-07T15:01:58Z) - UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving [18.189392365510848]
UniMLVGは、拡張ストリートマルチパースペクティブビデオを生成するために設計された統合フレームワークである。
FIDの48.2%、FVDの35.2%の改善を実現している。
論文 参考訳(メタデータ) (2024-12-06T08:27:53Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - End-to-end Driving in High-Interaction Traffic Scenarios with Reinforcement Learning [24.578178308010912]
これらの問題に対処するために,Ranmble というエンドツーエンドモデルベース RL アルゴリズムを提案する。
環境のダイナミックスモデルを学ぶことで、Rambleは今後のトラフィックイベントを予測し、より情報に富んだ戦略的決定を下すことができる。
Rambleは、CARLA Leaderboard 2.0におけるルート完了率と運転スコアに関する最先端のパフォーマンスを達成し、複雑でダイナミックな交通状況を管理する上での有効性を示している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model [6.144680854063938]
GenDDSは、自律運転システムの運転シナリオを生成するための新しいアプローチである。
我々は、実際の運転ビデオを含むKITTIデータセットを使用して、モデルをトレーニングする。
実世界の運転シナリオの複雑さと変動性を密に再現した高品質な運転映像を,我々のモデルで生成できることを実証した。
論文 参考訳(メタデータ) (2024-08-28T15:37:44Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - DragTraffic: Interactive and Controllable Traffic Scene Generation for Autonomous Driving [10.90477019946728]
DragTrafficは、条件付き拡散に基づく、汎用的でインタラクティブで制御可能なトラフィックシーン生成フレームワークである。
我々は回帰モデルを用いて、一般的な初期解と条件拡散モデルに基づく改良プロセスを提供し、多様性を保証する。
実世界の運転データセットの実験によると、DragTrafficは信頼性、多様性、自由度で既存の手法より優れている。
論文 参考訳(メタデータ) (2024-04-19T04:49:28Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation [32.30436679335912]
本稿では,DriveDreamerをベースとしたDriveDreamer-2を提案する。
最終的に、生成した駆動ビデオの時間的・空間的コヒーレンスを高めるための統一多視点モデルを提案する。
論文 参考訳(メタデータ) (2024-03-11T16:03:35Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。