論文の概要: Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning
- arxiv url: http://arxiv.org/abs/2305.13840v3
- Date: Mon, 12 Aug 2024 08:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 01:18:22.926870
- Title: Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning
- Title(参考訳): 制御-A-ビデオ:制御可能テキスト-ビデオ拡散モデル
- Authors: Weifeng Chen, Yatai Ji, Jie Wu, Hefeng Wu, Pan Xie, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin,
- Abstract要約: Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
- 参考スコア(独自算出の注目度): 50.60891619269651
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in text-to-image (T2I) diffusion models have enabled impressive image generation capabilities guided by text prompts. However, extending these techniques to video generation remains challenging, with existing text-to-video (T2V) methods often struggling to produce high-quality and motion-consistent videos. In this work, we introduce Control-A-Video, a controllable T2V diffusion model that can generate videos conditioned on text prompts and reference control maps like edge and depth maps. To tackle video quality and motion consistency issues, we propose novel strategies to incorporate content prior and motion prior into the diffusion-based generation process. Specifically, we employ a first-frame condition scheme to transfer video generation from the image domain. Additionally, we introduce residual-based and optical flow-based noise initialization to infuse motion priors from reference videos, promoting relevance among frame latents for reduced flickering. Furthermore, we present a Spatio-Temporal Reward Feedback Learning (ST-ReFL) algorithm that optimizes the video diffusion model using multiple reward models for video quality and motion consistency, leading to superior outputs. Comprehensive experiments demonstrate that our framework generates higher-quality, more consistent videos compared to existing state-of-the-art methods in controllable text-to-video generation
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルの最近の進歩により、テキスト・プロンプトによって導かれる印象的な画像生成が可能になった。
しかし、これらのテクニックをビデオ生成に拡張することは依然として困難であり、既存のテキスト・ツー・ビデオ(T2V)手法は高品質でモーション・一貫性のあるビデオを作成するのにしばしば苦労している。
本研究では,テキストプロンプトに条件付きビデオを生成する制御可能なT2V拡散モデルであるControl-A-Videoと,エッジや奥行きマップのような参照制御マップを紹介する。
映像品質と動きの整合性の問題に対処するため,拡散型生成プロセスにコンテンツの先行と動きを組み込む新しい手法を提案する。
具体的には、画像領域から映像を転送するための第1フレーム条件スキームを用いる。
さらに、残差ベースおよび光フローベースノイズ初期化を導入し、参照ビデオから動きの先行を注入し、フレッカリングを減らすためのフレームラテント間の関連性を促進する。
さらに、ビデオ品質と動きの整合性のために複数の報酬モデルを用いて、ビデオ拡散モデルを最適化する時空間逆フィードバック学習(ST-ReFL)アルゴリズムを提案する。
包括的実験により、制御可能なテキスト・ビデオ生成における既存の最先端手法と比較して、我々のフレームワークは高品質で一貫性のあるビデオを生成することが示された。
関連論文リスト
- VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。