Fugu-MT 論文翻訳(概要): ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing

論文の概要: ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing

arxiv url: http://arxiv.org/abs/2305.17098v1
Date: Fri, 26 May 2023 17:13:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 13:18:06.630840
Title: ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing
Title（参考訳）: ControlVideo: ワンショットテキスト・ビデオ編集のための条件付きコントロールの追加
Authors: Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu
Abstract要約: そこで本研究では,テキスト駆動ビデオ編集の新しい手法であるControlVideoを提案する。 ControlVideoは、特定のテキストに一致したビデオの忠実度と時間的一貫性を高めることを目的としている。
参考スコア（独自算出の注目度）: 36.5109951537646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present ControlVideo, a novel method for text-driven video editing. Leveraging the capabilities of text-to-image diffusion models and ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency of videos that align with a given text while preserving the structure of the source video. This is achieved by incorporating additional conditions such as edge maps, fine-tuning the key-frame and temporal attention on the source video-text pair with carefully designed strategies. An in-depth exploration of ControlVideo's design is conducted to inform future research on one-shot tuning video diffusion models. Quantitatively, ControlVideo outperforms a range of competitive baselines in terms of faithfulness and consistency while still aligning with the textual prompt. Additionally, it delivers videos with high visual realism and fidelity w.r.t. the source content, demonstrating flexibility in utilizing controls containing varying degrees of source video information, and the potential for multiple control combinations. The project page is available at \href{https://ml.cs.tsinghua.edu.cn/controlvideo/}{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
Abstract（参考訳）: 本稿では,テキスト駆動ビデオ編集の新しい手法であるControlVideoを提案する。 ControlVideoは、テキストから画像への拡散モデルとコントロールネットの機能を活用し、ソースビデオの構造を保ちながら、与えられたテキストと整合するビデオの忠実度と時間的一貫性を高めることを目的としている。これは、エッジマップ、キーフレームの微調整、ソースビデオテキストペアの時間的注意と慎重に設計された戦略などの追加条件を組み込むことによって達成される。ワンショットチューニングビデオ拡散モデルに関する今後の研究を知らせるため,コントロールビデオの設計を詳細に調査する。 ControlVideoは、テキストのプロンプトと整合性を保ちながら、忠実さと一貫性という点で競争力のあるベースラインを上回ります。さらに、ソースコンテンツに対する高い視覚的リアリズムと忠実度を持つビデオを提供し、ソース情報を含む制御の柔軟性と複数の制御の組み合わせの可能性を示す。プロジェクトページは \href{https://ml.cs.tsinghua.edu.cn/}{https://ml.cs.tsinghua.edu/controlvideo/} で利用可能である。

関連論文リスト

SketchVideo: Sketch-based Video Generation and Editing [51.99066098393491]
本研究では,映像生成のためのスケッチベースの空間・動き制御の実現と,実・合成ビデオのきめ細かい編集を支援することを目的とする。 DiTビデオ生成モデルに基づいて、スキップされたDiTブロックの残像を予測するスケッチ制御ブロックを用いたメモリ効率の高い制御構造を提案する。スケッチベースのビデオ編集では,新たに編集したコンテンツとオリジナルビデオの空間的特徴と動的動作との整合性を維持するビデオ挿入モジュールを設計する。
論文参考訳（メタデータ） (2025-03-30T02:44:09Z)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
Video Diffusion Transformers are In-Context Learners [31.736838809714726]
本稿では,ビデオ拡散変換器のコンテキスト内機能を実現するためのソリューションについて検討する。本稿では,テキスト内生成を利用するための簡単なパイプラインを提案する: (textbfii$) ビデオは,空間的あるいは時間的次元に沿って行われる。当社のフレームワークは,研究コミュニティにとって貴重なツールであり,製品レベルの制御可能なビデオ生成システムを進化させる上で重要な洞察を提供する。
論文参考訳（メタデータ） (2024-12-14T10:39:55Z)
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。フレームレートは16fps、解像度は768×1360ピクセル。
論文参考訳（メタデータ） (2024-08-12T11:47:11Z)
LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。 ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文参考訳（メタデータ） (2023-10-15T02:39:25Z)
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-02T11:28:37Z)
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文参考訳（メタデータ） (2023-06-14T19:15:49Z)
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文参考訳（メタデータ） (2023-05-23T09:03:19Z)
ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。 NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文参考訳（メタデータ） (2023-05-22T14:48:53Z)
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models [0.0]
ゼロショットテキスト・ビデオ・ジェネレーションとコントロールネットを組み合わせることで,これらのモデルの出力を改善する手法を提案する。提案手法は,複数のスケッチフレームを入力として,これらのフレームの流れにマッチした映像出力を生成する。
論文参考訳（メタデータ） (2023-05-10T02:33:25Z)
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文参考訳（メタデータ） (2023-03-23T17:01:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。