論文の概要: DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes
- arxiv url: http://arxiv.org/abs/2409.04003v1
- Date: Fri, 6 Sep 2024 03:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:58:39.048048
- Title: DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes
- Title(参考訳): DreamForge:マルチビュー運転シーンのためのモーション対応自動回帰ビデオ生成
- Authors: Jianbiao Mei, Yukai Ma, Xuemeng Yang, Licheng Wen, Tiantian Wei, Min Dou, Botian Shi, Yong Liu,
- Abstract要約: 拡散型自己回帰ビデオ生成モデルによる3次元制御可能・映像の長期生成
DreamForgeは、テキスト記述、カメラポーズ、3Dバウンディングボックス、ロードレイアウトなどの柔軟な条件をサポートする。
整合性を確保するため、視線横断的注意と時間的コヒーレンスにより、モーションキューで強化された自己回帰的アーキテクチャを介して、視線間整合性を確保する。
- 参考スコア(独自算出の注目度): 11.761871622954214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in diffusion models have significantly enhanced the cotrollable generation of streetscapes for and facilitated downstream perception and planning tasks. However, challenges such as maintaining temporal coherence, generating long videos, and accurately modeling driving scenes persist. Accordingly, we propose DreamForge, an advanced diffusion-based autoregressive video generation model designed for the long-term generation of 3D-controllable and extensible video. In terms of controllability, our DreamForge supports flexible conditions such as text descriptions, camera poses, 3D bounding boxes, and road layouts, while also providing perspective guidance to produce driving scenes that are both geometrically and contextually accurate. For consistency, we ensure inter-view consistency through cross-view attention and temporal coherence via an autoregressive architecture enhanced with motion cues. Codes will be available at https://github.com/PJLab-ADG/DriveArena.
- Abstract(参考訳): 近年の拡散モデルの発展により、下流の認識と計画作業のための街路景観の生成が促進され、促進されている。
しかし、時間的コヒーレンスを維持すること、長いビデオを生成すること、運転シーンを正確にモデル化することといった課題は継続する。
そこで我々は,DreamForgeを提案する。DreamForgeは,3D制御可能で拡張可能なビデオの長期再生用に設計された,高度な拡散型自己回帰ビデオ生成モデルである。
制御性に関しては,テキスト記述やカメラポーズ,3Dバウンディングボックス,道路レイアウトなどのフレキシブルな条件をサポートするとともに,幾何学的かつ文脈的に正確な運転シーンを生成するための視点ガイダンスを提供する。
整合性を確保するため、視線横断的注意と時間的コヒーレンスにより、モーションキューで強化された自己回帰的アーキテクチャを介して、視線間整合性を確保する。
コードはhttps://github.com/PJLab-ADG/DriveArenaで入手できる。
関連論文リスト
- MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [55.977597688114514]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion [61.929653153389964]
そこで本研究では,街並みを連続的に合成した街並みの景観を再現する手法を提案する。
我々の手法は、視覚的品質と一貫性を維持しつつ、複数の都市ブロックにまたがる、はるかに長い範囲のカメラ軌道にスケールすることができる。
論文 参考訳(メタデータ) (2024-07-18T17:56:30Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
以上の結果から, 自律運転シミュレーションなどにおけるトランスフォーメーションの可能性を示すとともに, フレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation [32.30436679335912]
本稿では,DriveDreamerをベースとしたDriveDreamer-2を提案する。
最終的に、生成した駆動ビデオの時間的・空間的コヒーレンスを高めるための統一多視点モデルを提案する。
論文 参考訳(メタデータ) (2024-03-11T16:03:35Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - DrivingDiffusion: Layout-Guided multi-view driving scene video
generation with latent diffusion model [19.288610627281102]
3次元レイアウトで制御されたリアルなマルチビュービデオを生成するために、DrivingDiffusionを提案する。
我々のモデルは複雑な都市のシーンで大規模でリアルなマルチカメラ駆動ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-11T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。