論文の概要: Control-A-Video: Controllable Text-to-Video Generation with Diffusion
Models
- arxiv url: http://arxiv.org/abs/2305.13840v1
- Date: Tue, 23 May 2023 09:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:37:41.120671
- Title: Control-A-Video: Controllable Text-to-Video Generation with Diffusion
Models
- Title(参考訳): control-a-video:拡散モデルを用いたテキスト対ビデオ生成
- Authors: Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng
Xiao, Liang Lin
- Abstract要約: Video-ControlNetは、制御可能なテキスト・ツー・ビデオ(T2V)拡散モデルである。
エッジや深度マップなどの一連の制御信号に条件付けされたビデオを生成する。
- 参考スコア(独自算出の注目度): 68.34776547168822
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a controllable text-to-video (T2V) diffusion model, named
Video-ControlNet, that generates videos conditioned on a sequence of control
signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained
conditional text-to-image (T2I) diffusion model by incorporating a
spatial-temporal self-attention mechanism and trainable temporal layers for
efficient cross-frame modeling. A first-frame conditioning strategy is proposed
to facilitate the model to generate videos transferred from the image domain as
well as arbitrary-length videos in an auto-regressive manner. Moreover,
Video-ControlNet employs a novel residual-based noise initialization strategy
to introduce motion prior from an input video, producing more coherent videos.
With the proposed architecture and strategies, Video-ControlNet can achieve
resource-efficient convergence and generate superior quality and consistent
videos with fine-grained control. Extensive experiments demonstrate its success
in various video generative tasks such as video editing and video style
transfer, outperforming previous methods in terms of consistency and quality.
Project Page: https://controlavideo.github.io/
- Abstract(参考訳): 本稿では,エッジマップや深度マップなどの一連の制御信号に基づく映像を生成するビデオ制御ネットという,制御可能なt2v拡散モデルを提案する。
video-controlnetは、空間-時間間自己着機構と訓練可能な時間層を組み込んだ事前学習された条件付きテキスト・ツー・イメージ(t2i)拡散モデルに基づいて構築され、効率的なクロスフレームモデリングを行う。
画像領域から転送されるビデオや任意の長さの動画を自動回帰的に生成するための第1フレーム条件付け戦略を提案する。
さらに、Video-ControlNetは、新しい残差に基づくノイズ初期化戦略を採用し、入力ビデオから動きを導入し、よりコヒーレントなビデオを生成する。
提案したアーキテクチャと戦略により、Video-ControlNetはリソース効率の高い収束を実現し、きめ細かい制御で高品質で一貫したビデオを生成することができる。
ビデオ編集やビデオスタイルの転送といった様々なビデオ生成タスクにおいて、その成功を実証し、一貫性と品質の点で従来の手法よりも優れていた。
プロジェクトページ: https://controlavideo.github.io/
関連論文リスト
- VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。