論文の概要: ControlVideo: Adding Conditional Control for One Shot Text-to-Video
Editing
- arxiv url: http://arxiv.org/abs/2305.17098v1
- Date: Fri, 26 May 2023 17:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:18:06.630840
- Title: ControlVideo: Adding Conditional Control for One Shot Text-to-Video
Editing
- Title(参考訳): ControlVideo: ワンショットテキスト・ビデオ編集のための条件付きコントロールの追加
- Authors: Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu
- Abstract要約: そこで本研究では,テキスト駆動ビデオ編集の新しい手法であるControlVideoを提案する。
ControlVideoは、特定のテキストに一致したビデオの忠実度と時間的一貫性を高めることを目的としている。
- 参考スコア(独自算出の注目度): 36.5109951537646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present ControlVideo, a novel method for text-driven video
editing. Leveraging the capabilities of text-to-image diffusion models and
ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency
of videos that align with a given text while preserving the structure of the
source video. This is achieved by incorporating additional conditions such as
edge maps, fine-tuning the key-frame and temporal attention on the source
video-text pair with carefully designed strategies. An in-depth exploration of
ControlVideo's design is conducted to inform future research on one-shot tuning
video diffusion models. Quantitatively, ControlVideo outperforms a range of
competitive baselines in terms of faithfulness and consistency while still
aligning with the textual prompt. Additionally, it delivers videos with high
visual realism and fidelity w.r.t. the source content, demonstrating
flexibility in utilizing controls containing varying degrees of source video
information, and the potential for multiple control combinations. The project
page is available at
\href{https://ml.cs.tsinghua.edu.cn/controlvideo/}{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
- Abstract(参考訳): 本稿では,テキスト駆動ビデオ編集の新しい手法であるControlVideoを提案する。
ControlVideoは、テキストから画像への拡散モデルとコントロールネットの機能を活用し、ソースビデオの構造を保ちながら、与えられたテキストと整合するビデオの忠実度と時間的一貫性を高めることを目的としている。
これは、エッジマップ、キーフレームの微調整、ソースビデオテキストペアの時間的注意と慎重に設計された戦略などの追加条件を組み込むことによって達成される。
ワンショットチューニングビデオ拡散モデルに関する今後の研究を知らせるため,コントロールビデオの設計を詳細に調査する。
ControlVideoは、テキストのプロンプトと整合性を保ちながら、忠実さと一貫性という点で競争力のあるベースラインを上回ります。
さらに、ソースコンテンツに対する高い視覚的リアリズムと忠実度を持つビデオを提供し、ソース情報を含む制御の柔軟性と複数の制御の組み合わせの可能性を示す。
プロジェクトページは \href{https://ml.cs.tsinghua.edu.cn/}{https://ml.cs.tsinghua.edu/controlvideo/} で利用可能である。
関連論文リスト
- CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Sketching the Future (STF): Applying Conditional Control Techniques to
Text-to-Video Models [0.0]
ゼロショットテキスト・ビデオ・ジェネレーションとコントロールネットを組み合わせることで,これらのモデルの出力を改善する手法を提案する。
提案手法は,複数のスケッチフレームを入力として,これらのフレームの流れにマッチした映像出力を生成する。
論文 参考訳(メタデータ) (2023-05-10T02:33:25Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。