Fugu-MT 論文翻訳(概要): Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models

論文の概要: Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models

arxiv url: http://arxiv.org/abs/2305.05845v1
Date: Wed, 10 May 2023 02:33:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-11 14:46:52.284209
Title: Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models
Title（参考訳）: Sketching the Future (STF): テキスト・ビデオモデルへの条件制御技術の適用
Authors: Rohan Dhesikan, Vignesh Rajmohan
Abstract要約: ゼロショットテキスト・ビデオ・ジェネレーションとコントロールネットを組み合わせることで,これらのモデルの出力を改善する手法を提案する。提案手法は,複数のスケッチフレームを入力として,これらのフレームの流れにマッチした映像出力を生成する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The proliferation of video content demands efficient and flexible neural network based approaches for generating new video content. In this paper, we propose a novel approach that combines zero-shot text-to-video generation with ControlNet to improve the output of these models. Our method takes multiple sketched frames as input and generates video output that matches the flow of these frames, building upon the Text-to-Video Zero architecture and incorporating ControlNet to enable additional input conditions. By first interpolating frames between the inputted sketches and then running Text-to-Video Zero using the new interpolated frames video as the control technique, we leverage the benefits of both zero-shot text-to-video generation and the robust control provided by ControlNet. Experiments demonstrate that our method excels at producing high-quality and remarkably consistent video content that more accurately aligns with the user's intended motion for the subject within the video. We provide a comprehensive resource package, including a demo video, project website, open-source GitHub repository, and a Colab playground to foster further research and application of our proposed method.
Abstract（参考訳）: ビデオコンテンツの増殖は、新しいビデオコンテンツを生成するための効率的で柔軟なニューラルネットワークに基づくアプローチを必要とする。本稿では,ゼロショットテキスト・ビデオ・ジェネレーションとControlNetを組み合わせることで,これらのモデルの出力を改善する手法を提案する。提案手法では,複数のスケッチフレームを入力として,これらのフレームの流れにマッチする映像出力を生成し,テキスト対ビデオのゼロアーキテクチャ上に構築し,追加の入力条件を実現するためのコントロールネットを組み込む。まず、入力されたスケッチ間でフレームを補間し、新たな補間フレーム映像を制御技術としてテキスト対ビデオゼロを実行することにより、ゼロショットテキスト対ビデオ生成とコントロールネットが提供するロバスト制御の両方の利点を享受する。実験により,提案手法は,映像中の対象者の意図した動作とより正確に一致した高品質で極めて一貫性のある映像コンテンツの制作に優れていることを実証した。提案手法のさらなる研究と応用を促進するために,デモビデオ,プロジェクト web サイト,オープンソース github リポジトリ,colab プレイグラウンドなどを含む包括的なリソースパッケージを提供する。

関連論文リスト

BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。 U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文参考訳（メタデータ） (2025-01-13T19:17:06Z)
LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。 ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文参考訳（メタデータ） (2023-10-15T02:39:25Z)
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文参考訳（メタデータ） (2023-09-01T11:14:43Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
ControlVideo: Conditional Control for One-shot Text-driven Video Editing and Beyond [45.188722895165505]
ControlVideoは、ソースビデオの構造を保持しながら、所定のテキストと整列するビデオを生成する。トレーニング済みのテキスト・ツー・イメージ拡散モデルに基づいて構築されたコントロールビデオは、忠実度と時間的一貫性を高める。
論文参考訳（メタデータ） (2023-05-26T17:13:55Z)
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文参考訳（メタデータ） (2023-05-23T09:03:19Z)
ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。 NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文参考訳（メタデータ） (2023-05-22T14:48:53Z)
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文参考訳（メタデータ） (2023-03-23T17:01:59Z)
Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文参考訳（メタデータ） (2020-03-21T02:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。