論文の概要: DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion
- arxiv url: http://arxiv.org/abs/2510.15264v1
- Date: Fri, 17 Oct 2025 03:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.451355
- Title: DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion
- Title(参考訳): DriveGen3D: 効率的なビデオ拡散によるフィードフォワード駆動シーン生成
- Authors: Weijie Wang, Jiagang Zhu, Zeyu Zhang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Haoxiao Wang, Guan Huang, Xinze Chen, Yukun Zhou, Wenkang Qin, Duochao Shi, Haoyun Li, Guanghong Jia, Jiwen Lu,
- Abstract要約: DriveGen3Dは、高品質で制御可能な動的3D駆動シーンを生成するための新しいフレームワークである。
本研究は,映像の高速化と大規模動的シーン再構築を融合させることにより,この手法のギャップを埋めるものである。
- 参考スコア(独自算出の注目度): 62.589889759543446
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present DriveGen3D, a novel framework for generating high-quality and highly controllable dynamic 3D driving scenes that addresses critical limitations in existing methodologies. Current approaches to driving scene synthesis either suffer from prohibitive computational demands for extended temporal generation, focus exclusively on prolonged video synthesis without 3D representation, or restrict themselves to static single-scene reconstruction. Our work bridges this methodological gap by integrating accelerated long-term video generation with large-scale dynamic scene reconstruction through multimodal conditional control. DriveGen3D introduces a unified pipeline consisting of two specialized components: FastDrive-DiT, an efficient video diffusion transformer for high-resolution, temporally coherent video synthesis under text and Bird's-Eye-View (BEV) layout guidance; and FastRecon3D, a feed-forward reconstruction module that rapidly builds 3D Gaussian representations across time, ensuring spatial-temporal consistency. Together, these components enable real-time generation of extended driving videos (up to $424\times800$ at 12 FPS) and corresponding dynamic 3D scenes, achieving SSIM of 0.811 and PSNR of 22.84 on novel view synthesis, all while maintaining parameter efficiency.
- Abstract(参考訳): 本稿では,既存の手法の限界に対処する高品質で制御可能な動的3D駆動シーンを生成するための新しいフレームワークであるDriveGen3Dを提案する。
シーン合成を駆動する現在のアプローチは、時間的生成の禁止的な計算要求に悩まされるか、3D表現のない長時間のビデオ合成にのみ焦点をあてるか、静的な単一シーン再構成に制限されるかのいずれかである。
本研究は,マルチモーダル・コンディショナル・コントロールによる大規模動的シーン再構築と,映像生成の高速化を両立させることにより,この手法のギャップを埋めるものである。
DriveGen3Dは、高解像度で時間的コヒーレントなビデオ合成のための効率的なビデオ拡散変換器であるFastDrive-DiTと、Bird's-Eye-View (BEV)レイアウトガイダンスと、時間をかけて3Dガウス表現を迅速に構築するフィードフォワード再構築モジュールであるFastRecon3Dである。
これらのコンポーネントは、拡張駆動ビデオ(最大424\times800$ at 12 FPS)と対応する動的3Dシーンのリアルタイム生成を可能にし、新しいビュー合成において0.811のSSIMと22.84のPSNRを達成した。
関連論文リスト
- STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [42.73124501421074]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。