論文の概要: Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control
- arxiv url: http://arxiv.org/abs/2405.17414v1
- Date: Mon, 27 May 2024 17:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:04:26.421753
- Title: Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control
- Title(参考訳): 協調的ビデオ拡散:カメラ制御による一貫性のあるマルチビデオ生成
- Authors: Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein,
- Abstract要約: コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
- 参考スコア(独自算出の注目度): 70.17137528953953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on video generation has recently made tremendous progress, enabling high-quality videos to be generated from text prompts or images. Adding control to the video generation process is an important goal moving forward and recent approaches that condition video generation models on camera trajectories make strides towards it. Yet, it remains challenging to generate a video of the same scene from multiple different camera trajectories. Solutions to this multi-video generation problem could enable large-scale 3D scene generation with editable camera trajectories, among other applications. We introduce collaborative video diffusion (CVD) as an important step towards this vision. The CVD framework includes a novel cross-video synchronization module that promotes consistency between corresponding frames of the same video rendered from different camera poses using an epipolar attention mechanism. Trained on top of a state-of-the-art camera-control module for video generation, CVD generates multiple videos rendered from different camera trajectories with significantly better consistency than baselines, as shown in extensive experiments. Project page: https://collaborativevideodiffusion.github.io/.
- Abstract(参考訳): ビデオ生成の研究は、テキストプロンプトや画像から高品質なビデオを生成することができるように、最近大きく進歩した。
映像生成プロセスに制御を追加することは、前進する重要な目標であり、カメラ軌道上で映像生成モデルを条件付ける最近のアプローチは、その方向に進む。
しかし、複数の異なるカメラの軌跡から同じシーンのビデオを生成することは依然として困難である。
このマルチビデオ生成問題の解決策は、編集可能なカメラトラジェクトリを含む大規模な3Dシーン生成を可能にする。
このビジョンに向けた重要なステップとして,共同ビデオ拡散(CVD)を導入する。
CVDフレームワークは、エピポーラアテンション機構を使用して、異なるカメラポーズからレンダリングされた同じビデオの対応するフレーム間の一貫性を促進する新しいクロスビデオ同期モジュールを含む。
ビデオ生成のための最先端のカメラ制御モジュールの上に訓練されたCVDは、大規模な実験で示されているように、ベースラインよりもはるかに優れた一貫性を持つ異なるカメラ軌跡からレンダリングされた複数のビデオを生成する。
プロジェクトページ: https://collaborative videodiffusion.github.io/
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Multi-sentence Video Grounding for Long Video Generation [46.363084926441466]
長大映像生成のための多文ビデオグラウンドの勇敢で新しいアイデアを提案する。
提案手法は,画像・ビデオ編集,ビデオモーフィング,パーソナライズド生成,ビデオグラウンドニングの発達を,長いビデオ生成にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-07-18T07:05:05Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Training-free Camera Control for Video Generation [19.526135830699882]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z) - CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers [18.67069364925506]
本稿では,3次元カメラ動作の符号化に生成した映像を条件付けすることで,仮想3Dカメラ制御を生成ビデオに付加することを提案する。
その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。
論文 参考訳(メタデータ) (2024-05-21T20:54:27Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。