論文の概要: DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation
- arxiv url: http://arxiv.org/abs/2409.05463v1
- Date: Mon, 9 Sep 2024 09:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 15:10:24.515270
- Title: DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation
- Title(参考訳): DriveScape:高解像度制御可能なマルチビュー駆動ビデオ生成を目指して
- Authors: Wei Wu, Xi Guo, Weixuan Tang, Tingxuan Huang, Chiyu Wang, Dongyue Chen, Chenjing Ding,
- Abstract要約: マルチビュー、3次元条件付き映像生成のためのエンドツーエンドフレームワークDriveScapeを提案する。
FIDスコアが8.34、FVDスコアが76.39で,優れた生成品質指標が得られた。
- 参考スコア(独自算出の注目度): 10.296670127024045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in generative models have provided promising solutions for synthesizing realistic driving videos, which are crucial for training autonomous driving perception models. However, existing approaches often struggle with multi-view video generation due to the challenges of integrating 3D information while maintaining spatial-temporal consistency and effectively learning from a unified model. In this paper, we propose an end-to-end framework named DriveScape for multi-view, 3D condition-guided video generation. DriveScape not only streamlines the process by integrating camera data to ensure comprehensive spatial-temporal coverage, but also introduces a Bi-Directional Modulated Transformer module to effectively align 3D road structural information. As a result, our approach enables precise control over video generation, significantly enhancing realism and providing a robust solution for generating multi-view driving videos. Our framework achieves state-of-the-art results on the nuScenes dataset, demonstrating impressive generative quality metrics with an FID score of 8.34 and an FVD score of 76.39, as well as superior performance across various perception tasks. This paves the way for more accurate environmental simulations in autonomous driving. Code will be available at our project homepage.
- Abstract(参考訳): 生成モデルの最近の進歩は、自律運転知覚モデルの訓練に欠かせない現実的な運転映像を合成するための有望なソリューションを提供する。
しかし,従来のアプローチでは,空間的時間的整合性を維持しながら3次元情報を統合することの難しさや,統一モデルから効果的に学習することの難しさから,多視点映像生成に苦慮することが多い。
本稿では,多視点3Dコンディション誘導ビデオ生成のためのエンドツーエンドフレームワークDriveScapeを提案する。
DriveScapeは、カメラデータを統合して、空間的時間的包摂性を確保するだけでなく、双方向変調トランスモジュールを導入し、3D道路構造情報を効果的に整合させる。
その結果,本手法は映像生成の正確な制御を可能にし,リアリズムを著しく向上させ,マルチビュー・ドライビング・ビデオを生成するための堅牢なソリューションを提供する。
FIDスコア8.34、FVDスコア76.39、および様々な知覚タスクにおける優れたパフォーマンスを示す。
これにより、自動運転におけるより正確な環境シミュレーションの道が開ける。
コードはプロジェクトのホームページで公開されます。
関連論文リスト
- MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
本稿では,Ditアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介する。
MagicDriveDiTは、空間的時間的条件エンコーディングを組み込むことで、空間的時間的潜伏量を正確に制御する。
実験では、高解像度でフレーム数の多いリアルなストリートシーンビデオを生成する上で、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-21T03:13:30Z) - DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes [15.506076058742744]
本研究では,DreamForgeを提案する。DreamForgeは3次元制御可能な長期生成に適した,高度な拡散型自己回帰ビデオ生成モデルである。
レーンと前景の生成を向上するために、視点誘導を導入し、オブジェクト指向位置符号化を統合する。
また,映像中の動きの手がかりや外観の変化を捉えた時間的注意も提案する。
論文 参考訳(メタデータ) (2024-09-06T03:09:58Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - PV3D: A 3D Generative Model for Portrait Video Generation [94.96025739097922]
我々は,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。
PV3Dは、静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートすることができる。
論文 参考訳(メタデータ) (2022-12-13T05:42:44Z) - Learnable Sampling 3D Convolution for Video Enhancement and Action
Recognition [24.220358793070965]
3次元畳み込み(emphLS3D-Conv)の能力を向上させるための新しいモジュールを導入する。
学習可能な2Dオフセットを3D畳み込みに追加し、フレーム間の空間的特徴マップ上の位置をサンプリングする。
ビデオ, ビデオ超解像, ビデオデノナイズ, アクション認識実験により, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-11-22T09:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。