論文の概要: ControlVideo: Conditional Control for One-shot Text-driven Video Editing
and Beyond
- arxiv url: http://arxiv.org/abs/2305.17098v2
- Date: Tue, 28 Nov 2023 02:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 15:55:54.345426
- Title: ControlVideo: Conditional Control for One-shot Text-driven Video Editing
and Beyond
- Title(参考訳): ControlVideo: ワンショットテキスト駆動ビデオ編集のための条件制御
- Authors: Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu
- Abstract要約: ControlVideoは、ソースビデオの構造を保持しながら、所定のテキストと整列するビデオを生成する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルに基づいて構築されたコントロールビデオは、忠実度と時間的一貫性を高める。
- 参考スコア(独自算出の注目度): 45.188722895165505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents \emph{ControlVideo} for text-driven video editing --
generating a video that aligns with a given text while preserving the structure
of the source video. Building on a pre-trained text-to-image diffusion model,
ControlVideo enhances the fidelity and temporal consistency by incorporating
additional conditions (such as edge maps), and fine-tuning the key-frame and
temporal attention on the source video-text pair via an in-depth exploration of
the design space. Extensive experimental results demonstrate that ControlVideo
outperforms various competitive baselines by delivering videos that exhibit
high fidelity w.r.t. the source content, and temporal consistency, all while
aligning with the text. By incorporating Low-rank adaptation layers into the
model before training, ControlVideo is further empowered to generate videos
that align seamlessly with reference images. More importantly, ControlVideo can
be readily extended to the more challenging task of long video editing (e.g.,
with hundreds of frames), where maintaining long-range temporal consistency is
crucial. To achieve this, we propose to construct a fused ControlVideo by
applying basic ControlVideo to overlapping short video segments and key frame
videos and then merging them by pre-defined weight functions. Empirical results
validate its capability to create videos across 140 frames, which is
approximately 5.83 to 17.5 times more than what previous works achieved. The
code is available at
\href{https://github.com/thu-ml/controlvideo}{https://github.com/thu-ml/controlvideo}
and the visualization results are available at
\href{https://drive.google.com/file/d/1wEgc2io3UwmoC5vTPbkccFvTkwVqsZlK/view?usp=drive_link}{HERE}.
- Abstract(参考訳): 本稿では,テキスト駆動ビデオ編集のための「emph{ControlVideo}」を提案する。
事前学習されたテキストから画像への拡散モデルに基づいて、コントロールビデオは、追加の条件(エッジマップなど)を組み込んで忠実度と時間的一貫性を高め、キーフレームと時間的注意を設計空間の深い探索を通じてソースビデオ-テキストペアに微調整する。
広範にわたる実験結果から、コントロールビデオは、テキストと整合しながら、高忠実度w.r.t.のソースコンテンツと時間的一貫性を示すビデオを提供することで、様々な競争上のベースラインを上回ります。
トレーニング前に低ランク適応層をモデルに組み込むことで、controlvideoは参照画像とシームレスに連携するビデオを生成することができる。
さらに重要なこととして、ControlVideoは、長距離の時間的一貫性を維持することが不可欠である長いビデオ編集(例えば数百フレーム)の課題に容易に拡張できる。
そこで本研究では,短いビデオセグメントとキーフレームビデオの重ね合わせに基本制御ビデオを適用し,それらを予め定義された重み関数で融合することにより,融合制御ビデオを構築することを提案する。
実験の結果、140フレームにまたがる動画を作成する能力は、以前の作品の約5.83倍から17.5倍に向上した。
コードは \href{https://github.com/thu-ml/controlvideo}{https://github.com/thu-ml/controlvideo} で、視覚化結果は \href{https://drive.google.com/file/d/1wEgc2io3UwmoC5vTPbkccFvTkwVqsZlK/view?
usp=drive_link}{here}。
関連論文リスト
- CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Sketching the Future (STF): Applying Conditional Control Techniques to
Text-to-Video Models [0.0]
ゼロショットテキスト・ビデオ・ジェネレーションとコントロールネットを組み合わせることで,これらのモデルの出力を改善する手法を提案する。
提案手法は,複数のスケッチフレームを入力として,これらのフレームの流れにマッチした映像出力を生成する。
論文 参考訳(メタデータ) (2023-05-10T02:33:25Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。