論文の概要: Make-A-Video: Text-to-Video Generation without Text-Video Data
- arxiv url: http://arxiv.org/abs/2209.14792v1
- Date: Thu, 29 Sep 2022 13:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 16:01:49.358912
- Title: Make-A-Video: Text-to-Video Generation without Text-Video Data
- Title(参考訳): make-a-video:テキスト-ビデオデータのないテキスト-ビデオ生成
- Authors: Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang
Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal
Gupta, Yaniv Taigman
- Abstract要約: Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
- 参考スコア(独自算出の注目度): 69.20996352229422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Make-A-Video -- an approach for directly translating the
tremendous recent progress in Text-to-Image (T2I) generation to Text-to-Video
(T2V). Our intuition is simple: learn what the world looks like and how it is
described from paired text-image data, and learn how the world moves from
unsupervised video footage. Make-A-Video has three advantages: (1) it
accelerates training of the T2V model (it does not need to learn visual and
multimodal representations from scratch), (2) it does not require paired
text-video data, and (3) the generated videos inherit the vastness (diversity
in aesthetic, fantastical depictions, etc.) of today's image generation models.
We design a simple yet effective way to build on T2I models with novel and
effective spatial-temporal modules. First, we decompose the full temporal U-Net
and attention tensors and approximate them in space and time. Second, we design
a spatial temporal pipeline to generate high resolution and frame rate videos
with a video decoder, interpolation model and two super resolution models that
can enable various applications besides T2V. In all aspects, spatial and
temporal resolution, faithfulness to text, and quality, Make-A-Video sets the
new state-of-the-art in text-to-video generation, as determined by both
qualitative and quantitative measures.
- Abstract(参考訳): 我々は,テキスト・ツー・イメージ(t2i)生成の最近の著しい進歩をテキスト・ツー・ビデオ(t2v)に直接翻訳する手法であるmake-a-videoを提案する。
私たちの直感は単純で、世界がどのように見えるか、どのように表現されているか、ペアのテキスト画像データから学び、教師なしのビデオ映像から世界がどのように動くかを学ぶ。
make-a-videoには3つの利点がある:(1)t2vモデルのトレーニングを加速する(スクラッチから視覚的およびマルチモーダル表現を学習する必要がない)、(2)テキストビデオのペアデータを必要としない、(3)生成されたビデオは、今日の画像生成モデルの広さ(美学の多様性、幻想的な描写など)を継承する。
我々は,新しい空間時空間モジュールを用いたT2Iモデルを用いた簡易かつ効果的な構築法を設計する。
まず、フル時間的U-Netとアテンソルを分解し、空間と時間で近似する。
第2に,映像デコーダ,補間モデル,およびt2v以外の様々な応用が可能な2つの超解像モデルを用いて,高分解能・フレームレート映像を生成するための空間的時間パイプラインを設計する。
空間的・時間的解像度、テキストへの忠実さ、品質のあらゆる面において、Make-A-Videoは質的・定量的な測定によって決定されるように、テキスト・ビデオ生成における新しい最先端技術を設定する。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data [14.489919164476982]
高品質な(本社)ビデオ合成は、現実世界に多様で複雑な動きがあったため困難である。
既存の作品の多くは、大規模なキャプションを集めることでこの問題に対処するのに苦労しており、コミュニティにはアクセスできない。
制限付き低品質(LQ)のデータを公開することにより,再カプセル化や微調整を行わずにHQビデオジェネレータをトレーニングできることを示す。
論文 参考訳(メタデータ) (2024-08-19T16:08:00Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。