Fugu-MT 論文翻訳(概要): Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models

論文の概要: Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models

arxiv url: http://arxiv.org/abs/2305.13840v1
Date: Tue, 23 May 2023 09:03:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 17:37:41.120671
Title: Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models
Title（参考訳）: control-a-video:拡散モデルを用いたテキスト対ビデオ生成
Authors: Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin
Abstract要約: Video-ControlNetは、制御可能なテキスト・ツー・ビデオ(T2V)拡散モデルである。エッジや深度マップなどの一連の制御信号に条件付けされたビデオを生成する。
参考スコア（独自算出の注目度）: 68.34776547168822
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper presents a controllable text-to-video (T2V) diffusion model, named Video-ControlNet, that generates videos conditioned on a sequence of control signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained conditional text-to-image (T2I) diffusion model by incorporating a spatial-temporal self-attention mechanism and trainable temporal layers for efficient cross-frame modeling. A first-frame conditioning strategy is proposed to facilitate the model to generate videos transferred from the image domain as well as arbitrary-length videos in an auto-regressive manner. Moreover, Video-ControlNet employs a novel residual-based noise initialization strategy to introduce motion prior from an input video, producing more coherent videos. With the proposed architecture and strategies, Video-ControlNet can achieve resource-efficient convergence and generate superior quality and consistent videos with fine-grained control. Extensive experiments demonstrate its success in various video generative tasks such as video editing and video style transfer, outperforming previous methods in terms of consistency and quality. Project Page: https://controlavideo.github.io/
Abstract（参考訳）: 本稿では,エッジマップや深度マップなどの一連の制御信号に基づく映像を生成するビデオ制御ネットという,制御可能なt2v拡散モデルを提案する。 video-controlnetは、空間-時間間自己着機構と訓練可能な時間層を組み込んだ事前学習された条件付きテキスト・ツー・イメージ(t2i)拡散モデルに基づいて構築され、効率的なクロスフレームモデリングを行う。画像領域から転送されるビデオや任意の長さの動画を自動回帰的に生成するための第1フレーム条件付け戦略を提案する。さらに、Video-ControlNetは、新しい残差に基づくノイズ初期化戦略を採用し、入力ビデオから動きを導入し、よりコヒーレントなビデオを生成する。提案したアーキテクチャと戦略により、Video-ControlNetはリソース効率の高い収束を実現し、きめ細かい制御で高品質で一貫したビデオを生成することができる。ビデオ編集やビデオスタイルの転送といった様々なビデオ生成タスクにおいて、その成功を実証し、一貫性と品質の点で従来の手法よりも優れていた。プロジェクトページ: https://controlavideo.github.io/

関連論文リスト

LMP: Leveraging Motion Prior in Zero-Shot Video Generation with Diffusion Transformer [10.44905923812975]
ゼロショットビデオ生成のためのLMPフレームワークを提案する。本フレームワークでは,事前学習した拡散トランスフォーマーの強力な生成機能を活用し,生成した動画の動画をユーザが提供するモーションビデオを参照できるようにする。提案手法は, 生成品質, 即時ビデオの整合性, 制御能力における最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-20T10:18:29Z)
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization [63.37161241355025]
Video-MSGはマルチモーダル計画と構造化雑音初期化に基づくT2V生成のトレーニング不要手法である。ノイズインバージョンとデノベーションを通じて、ビデオスケッチで下流のT2V拡散モデルを導出する。ビデオMSGは、推論時間にメモリを追加して微調整や注意操作を必要としないため、大きなT2Vモデルを採用するのが簡単である。
論文参考訳（メタデータ） (2025-04-11T15:41:43Z)
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。 Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。 Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文参考訳（メタデータ） (2025-02-14T15:58:10Z)
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-06T05:46:17Z)
VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文参考訳（メタデータ） (2024-06-06T17:25:33Z)
MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。 MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文参考訳（メタデータ） (2023-11-19T13:36:03Z)
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文参考訳（メタデータ） (2023-10-16T19:03:19Z)
ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。 ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文参考訳（メタデータ） (2023-10-11T17:46:28Z)
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文参考訳（メタデータ） (2023-09-01T11:14:43Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文参考訳（メタデータ） (2022-09-29T13:59:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。