論文の概要: TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary
Generator
- arxiv url: http://arxiv.org/abs/2009.02018v2
- Date: Mon, 28 Jun 2021 00:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:09:13.529472
- Title: TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary
Generator
- Title(参考訳): TiVGAN: ステップバイステップ進化発電機による動画生成
- Authors: Doyeon Kim, Donggyu Joo, Junmo Kim
- Abstract要約: 本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。
ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
- 参考スコア(独自算出の注目度): 34.7504057664375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in technology have led to the development of methods that can create
desired visual multimedia. In particular, image generation using deep learning
has been extensively studied across diverse fields. In comparison, video
generation, especially on conditional inputs, remains a challenging and less
explored area. To narrow this gap, we aim to train our model to produce a video
corresponding to a given text description. We propose a novel training
framework, Text-to-Image-to-Video Generative Adversarial Network (TiVGAN),
which evolves frame-by-frame and finally produces a full-length video. In the
first phase, we focus on creating a high-quality single video frame while
learning the relationship between the text and an image. As the steps proceed,
our model is trained gradually on more number of consecutive frames.This
step-by-step learning process helps stabilize the training and enables the
creation of high-resolution video based on conditional text descriptions.
Qualitative and quantitative experimental results on various datasets
demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): テクノロジーの進歩は、所望のビジュアルマルチメディアを作成できる手法の開発につながった。
特に、深層学習を用いた画像生成は様々な分野において広く研究されている。
対照的に、特に条件付き入力におけるビデオ生成は、困難で探索の少ない領域のままである。
このギャップを狭めるために、与えられたテキスト記述に対応するビデオを作成するためにモデルを訓練することを目指している。
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。
第1段階では,テキストと画像の関係を学習しながら高品質な単一ビデオフレームを作成することに集中する。
このステップ・バイ・ステップ学習プロセスは,ステップ・バイ・ステップの学習を安定化させ,条件付きテキスト記述に基づく高解像度映像作成を可能にする。
各種データセットの質的・定量的実験結果から,提案手法の有効性が示された。
関連論文リスト
- I4VGen: Image as Free Stepping Stone for Text-to-Video Generation [28.910648256877113]
I4VGenは、事前訓練されたテキスト-ビデオ拡散モデルを強化するための新しいビデオ拡散推論パイプラインである。
I4VGenはアンカー画像合成とアンカー画像拡張テキスト・ビデオ合成の2段階からなる。
実験の結果,提案手法は高次視覚リアリズムとテキスト忠実度データセットを用いたビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-06-04T11:48:44Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。