論文の概要: DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes
- arxiv url: http://arxiv.org/abs/2409.04003v1
- Date: Fri, 6 Sep 2024 03:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:58:39.048048
- Title: DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes
- Title(参考訳): DreamForge:マルチビュー運転シーンのためのモーション対応自動回帰ビデオ生成
- Authors: Jianbiao Mei, Yukai Ma, Xuemeng Yang, Licheng Wen, Tiantian Wei, Min Dou, Botian Shi, Yong Liu,
- Abstract要約: 拡散型自己回帰ビデオ生成モデルによる3次元制御可能・映像の長期生成
DreamForgeは、テキスト記述、カメラポーズ、3Dバウンディングボックス、ロードレイアウトなどの柔軟な条件をサポートする。
整合性を確保するため、視線横断的注意と時間的コヒーレンスにより、モーションキューで強化された自己回帰的アーキテクチャを介して、視線間整合性を確保する。
- 参考スコア(独自算出の注目度): 11.761871622954214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in diffusion models have significantly enhanced the cotrollable generation of streetscapes for and facilitated downstream perception and planning tasks. However, challenges such as maintaining temporal coherence, generating long videos, and accurately modeling driving scenes persist. Accordingly, we propose DreamForge, an advanced diffusion-based autoregressive video generation model designed for the long-term generation of 3D-controllable and extensible video. In terms of controllability, our DreamForge supports flexible conditions such as text descriptions, camera poses, 3D bounding boxes, and road layouts, while also providing perspective guidance to produce driving scenes that are both geometrically and contextually accurate. For consistency, we ensure inter-view consistency through cross-view attention and temporal coherence via an autoregressive architecture enhanced with motion cues. Codes will be available at https://github.com/PJLab-ADG/DriveArena.
- Abstract(参考訳): 近年の拡散モデルの発展により、下流の認識と計画作業のための街路景観の生成が促進され、促進されている。
しかし、時間的コヒーレンスを維持すること、長いビデオを生成すること、運転シーンを正確にモデル化することといった課題は継続する。
そこで我々は,DreamForgeを提案する。DreamForgeは,3D制御可能で拡張可能なビデオの長期再生用に設計された,高度な拡散型自己回帰ビデオ生成モデルである。
制御性に関しては,テキスト記述やカメラポーズ,3Dバウンディングボックス,道路レイアウトなどのフレキシブルな条件をサポートするとともに,幾何学的かつ文脈的に正確な運転シーンを生成するための視点ガイダンスを提供する。
整合性を確保するため、視線横断的注意と時間的コヒーレンスにより、モーションキューで強化された自己回帰的アーキテクチャを介して、視線間整合性を確保する。
コードはhttps://github.com/PJLab-ADG/DriveArenaで入手できる。
関連論文リスト
- VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。
Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。
空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-06T18:59:56Z) - InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。
制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文 参考訳(メタデータ) (2024-12-05T07:32:20Z) - MyGo: Consistent and Controllable Multi-View Driving Video Generation with Camera Control [4.556249147612401]
MyGoはビデオ生成を駆動するエンドツーエンドフレームワークである。
MyGoは、カメラの制御性とマルチビューの一貫性を向上するための条件として、オンボードカメラの動作を導入している。
その結果、MyGoは一般的なカメラ制御ビデオ生成とマルチビュー駆動ビデオ生成の両タスクにおいて最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-10T03:39:08Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。