論文の概要: MyGo: Consistent and Controllable Multi-View Driving Video Generation with Camera Control
- arxiv url: http://arxiv.org/abs/2409.06189v2
- Date: Wed, 11 Sep 2024 11:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:13:20.777240
- Title: MyGo: Consistent and Controllable Multi-View Driving Video Generation with Camera Control
- Title(参考訳): MyGo:カメラ制御による一貫性と制御可能なマルチビュー駆動ビデオ生成
- Authors: Yining Yao, Xi Guo, Chenjing Ding, Wei Wu,
- Abstract要約: MyGoはビデオ生成を駆動するエンドツーエンドフレームワークである。
MyGoは、カメラの制御性とマルチビューの一貫性を向上するための条件として、オンボードカメラの動作を導入している。
その結果、MyGoは一般的なカメラ制御ビデオ生成とマルチビュー駆動ビデオ生成の両タスクにおいて最先端の結果を得た。
- 参考スコア(独自算出の注目度): 4.556249147612401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality driving video generation is crucial for providing training data for autonomous driving models. However, current generative models rarely focus on enhancing camera motion control under multi-view tasks, which is essential for driving video generation. Therefore, we propose MyGo, an end-to-end framework for video generation, introducing motion of onboard cameras as conditions to make progress in camera controllability and multi-view consistency. MyGo employs additional plug-in modules to inject camera parameters into the pre-trained video diffusion model, which retains the extensive knowledge of the pre-trained model as much as possible. Furthermore, we use epipolar constraints and neighbor view information during the generation process of each view to enhance spatial-temporal consistency. Experimental results show that MyGo has achieved state-of-the-art results in both general camera-controlled video generation and multi-view driving video generation tasks, which lays the foundation for more accurate environment simulation in autonomous driving. Project page: https://metadrivescape.github.io/papers_project/MyGo/page.html
- Abstract(参考訳): 高品質な運転ビデオ生成は、自律運転モデルのためのトレーニングデータの提供に不可欠である。
しかし、現在の生成モデルは、ビデオ生成に不可欠なマルチビュータスク下でのカメラモーション制御の強化にはほとんど焦点を当てていない。
そこで我々は,カメラの制御性とマルチビューの整合性を向上させる条件として,搭載カメラの動作を導入し,映像生成のためのエンドツーエンドフレームワークであるMyGoを提案する。
MyGoは、カメラパラメータを事前訓練されたビデオ拡散モデルに注入するために追加のプラグインモジュールを使用している。
さらに、各ビューの生成過程において、エピポーラ制約と隣接ビュー情報を用いて、空間的時間的一貫性を高める。
実験結果から,MyGoは一般的なカメラ制御ビデオ生成タスクとマルチビュー駆動ビデオ生成タスクの両方において最先端の成果を上げており,自動運転におけるより正確な環境シミュレーションの基礎となっている。
プロジェクトページ: https://metadrivescape.github.io/papers_project/MyGo/page.html
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes [15.506076058742744]
本研究では,DreamForgeを提案する。DreamForgeは3次元制御可能な長期生成に適した,高度な拡散型自己回帰ビデオ生成モデルである。
レーンと前景の生成を向上するために、視点誘導を導入し、オブジェクト指向位置符号化を統合する。
また,映像中の動きの手がかりや外観の変化を捉えた時間的注意も提案する。
論文 参考訳(メタデータ) (2024-09-06T03:09:58Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Training-free Camera Control for Video Generation [19.526135830699882]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z) - MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。