論文の概要: MoVieDrive: Multi-Modal Multi-View Urban Scene Video Generation
- arxiv url: http://arxiv.org/abs/2508.14327v1
- Date: Wed, 20 Aug 2025 00:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.297043
- Title: MoVieDrive: Multi-Modal Multi-View Urban Scene Video Generation
- Title(参考訳): MoVieDrive:マルチモーダル・マルチビュー・アーバンシーン・ビデオ・ジェネレーション
- Authors: Guile Wu, David Huang, Dongfeng Bai, Bingbing Liu,
- Abstract要約: 本稿では,自律運転におけるマルチモーダルなマルチビュービデオ生成手法を提案する。
本手法では,マルチモーダルなマルチビュードライビングシーン映像を統一的なフレームワークで生成する。
実世界の自律走行データセットであるnuScenesに関する我々の実験は、高い忠実度と制御性でマルチモーダルなマルチビュー都市シーンビデオを生成することができることを示している。
- 参考スコア(独自算出の注目度): 20.943599420478105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation has recently shown superiority in urban scene synthesis for autonomous driving. Existing video generation approaches to autonomous driving primarily focus on RGB video generation and lack the ability to support multi-modal video generation. However, multi-modal data, such as depth maps and semantic maps, are crucial for holistic urban scene understanding in autonomous driving. Although it is feasible to use multiple models to generate different modalities, this increases the difficulty of model deployment and does not leverage complementary cues for multi-modal data generation. To address this problem, in this work, we propose a novel multi-modal multi-view video generation approach to autonomous driving. Specifically, we construct a unified diffusion transformer model composed of modal-shared components and modal-specific components. Then, we leverage diverse conditioning inputs to encode controllable scene structure and content cues into the unified diffusion model for multi-modal multi-view video generation. In this way, our approach is capable of generating multi-modal multi-view driving scene videos in a unified framework. Our experiments on the challenging real-world autonomous driving dataset, nuScenes, show that our approach can generate multi-modal multi-view urban scene videos with high fidelity and controllability, surpassing the state-of-the-art methods.
- Abstract(参考訳): 近年,映像生成は都市景観の自律走行における優位性を示している。
既存の自動走行へのビデオ生成アプローチは、主にRGBビデオ生成に焦点を当てており、マルチモーダルビデオ生成をサポートする能力が欠如している。
しかし、深度マップやセマンティックマップのようなマルチモーダルデータは、自律運転における総合的な都市景観理解に不可欠である。
異なるモダリティを生成するために複数のモデルを使用することは可能だが、モデル展開の難しさが増大し、マルチモーダルデータ生成に補完的な手段が利用できない。
この問題に対処するため,本稿では,自律運転におけるマルチモーダルなマルチビュービデオ生成手法を提案する。
具体的には、モーダル共有成分とモーダル固有成分からなる統一拡散変圧器モデルを構築する。
そこで,制御可能なシーン構造とコンテンツキューを多モード多視点ビデオ生成のための統一拡散モデルにエンコードするために,多様な条件付け入力を利用する。
このようにして、我々は統合されたフレームワークでマルチモーダルなマルチビュー駆動シーンビデオを生成することができる。
実世界の自律走行データセットであるnuScenesに関する我々の実験は、我々のアプローチが、最先端の手法を超越して、高い忠実度と制御性でマルチモーダルなマルチビューの都市シーンビデオを生成することができることを示している。
関連論文リスト
- DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving [18.189392365510848]
UniMLVGは、拡張ストリートマルチパースペクティブビデオを生成するために設計された統合フレームワークである。
FIDの48.2%、FVDの35.2%の改善を実現している。
論文 参考訳(メタデータ) (2024-12-06T08:27:53Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - DrivingDiffusion: Layout-Guided multi-view driving scene video
generation with latent diffusion model [19.288610627281102]
3次元レイアウトで制御されたリアルなマルチビュービデオを生成するために、DrivingDiffusionを提案する。
我々のモデルは複雑な都市のシーンで大規模でリアルなマルチカメラ駆動ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-11T18:00:08Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。