論文の概要: Emu Video: Factorizing Text-to-Video Generation by Explicit Image
Conditioning
- arxiv url: http://arxiv.org/abs/2311.10709v1
- Date: Fri, 17 Nov 2023 18:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 13:44:12.887157
- Title: Emu Video: Factorizing Text-to-Video Generation by Explicit Image
Conditioning
- Title(参考訳): Emu Video:明示的な画像コンディショニングによるテキスト・ビデオ生成の要因付け
- Authors: Rohit Girdhar, Mannat Singh, Andrew Brown, Quentin Duval, Samaneh
Azadi, Sai Saketh Rambhatla, Akbar Shah, Xi Yin, Devi Parikh, Ishan Misra
- Abstract要約: 生成を2段階に分解するテキスト・ツー・ビデオ生成モデルであるEmu Videoを提案する。
重要設計決定 - 拡散のための調整されたノイズスケジュールと、高品質なビデオを直接生成できるマルチステージトレーニング - を識別する。
人間の評価では、生成したビデオは、以前のすべての作業と比べて、品質が強く優先される。
- 参考スコア(独自算出の注目度): 60.974391638641954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Emu Video, a text-to-video generation model that factorizes the
generation into two steps: first generating an image conditioned on the text,
and then generating a video conditioned on the text and the generated image. We
identify critical design decisions--adjusted noise schedules for diffusion, and
multi-stage training--that enable us to directly generate high quality and high
resolution videos, without requiring a deep cascade of models as in prior work.
In human evaluations, our generated videos are strongly preferred in quality
compared to all prior work--81% vs. Google's Imagen Video, 90% vs. Nvidia's
PYOCO, and 96% vs. Meta's Make-A-Video. Our model outperforms commercial
solutions such as RunwayML's Gen2 and Pika Labs. Finally, our factorizing
approach naturally lends itself to animating images based on a user's text
prompt, where our generations are preferred 96% over prior work.
- Abstract(参考訳): 本稿では,テキストに条件付き画像を生成し,テキストと生成された画像に条件付き映像を生成する2つのステップに分解するテキスト間ビデオ生成モデルであるEmu Videoを提案する。
重要な設計上の決定 – 拡散のための調整されたノイズスケジュール,マルチステージトレーニング – を識別して,従来のようなモデルの深いカスケードを必要とせずに,高品質で高解像度なビデオを直接生成することが可能です。人間の評価では,生成したビデオは,以前のすべての作業 – -81%対GoogleのImagen Video,NvidiaのPYOCO,96%対MetaのMake-A-Video – に比べて,品質が強く優先されています。
私たちのモデルはRunwayMLのGen2やPika Labsといった商用ソリューションよりも優れています。
最後に、当社のファクタリングアプローチは、ユーザのテキストプロンプトに基づいてイメージをアニメーション化するのに役立つ。
関連論文リスト
- Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。