Fugu-MT 論文翻訳(概要): Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning

論文の概要: Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning

arxiv url: http://arxiv.org/abs/2311.10709v2
Date: Fri, 2 Aug 2024 18:55:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 00:06:03.775850
Title: Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning
Title（参考訳）: Emu Video: 明示的な画像コンディショニングによるテキスト・ツー・ビデオ生成の要因付け
Authors: Rohit Girdhar, Mannat Singh, Andrew Brown, Quentin Duval, Samaneh Azadi, Sai Saketh Rambhatla, Akbar Shah, Xi Yin, Devi Parikh, Ishan Misra,
Abstract要約: 生成を2段階に分解するテキスト・ツー・ビデオ生成モデルであるEmu Videoを提案する。重要設計決定 - 拡散のための調整されたノイズスケジュールと多段階訓練-を同定する。人間の評価では、生成したビデオは、以前のすべての作業と比べて、品質が強く優先される。
参考スコア（独自算出の注目度）: 59.01091079005586
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Emu Video, a text-to-video generation model that factorizes the generation into two steps: first generating an image conditioned on the text, and then generating a video conditioned on the text and the generated image. We identify critical design decisions--adjusted noise schedules for diffusion, and multi-stage training that enable us to directly generate high quality and high resolution videos, without requiring a deep cascade of models as in prior work. In human evaluations, our generated videos are strongly preferred in quality compared to all prior work--81% vs. Google's Imagen Video, 90% vs. Nvidia's PYOCO, and 96% vs. Meta's Make-A-Video. Our model outperforms commercial solutions such as RunwayML's Gen2 and Pika Labs. Finally, our factorizing approach naturally lends itself to animating images based on a user's text prompt, where our generations are preferred 96% over prior work.
Abstract（参考訳）: 本稿では,テキストに条件付き画像を生成し,テキストと生成された画像に条件付き映像を生成する2つのステップに分解するテキスト間ビデオ生成モデルであるEmu Videoを提案する。重要設計決定 - 拡散のための調整されたノイズスケジュール、高画質・高解像度ビデオを直接生成できるマルチステージトレーニング。人間の評価では、我々の生成されたビデオは、以前の作業の81%対GoogleのImagen Video、90%対NvidiaのPYOCO、そして96%対MetaのMake-A-Videoに比べて、品質が強く好まれています。私たちのモデルはRunwayMLのGen2やPika Labsといった商用ソリューションよりも優れています。最後に,本手法は,ユーザのテキストプロンプトに基づく画像のアニメーションに自然に寄与する。

関連論文リスト

Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文参考訳（メタデータ） (2024-10-17T16:22:46Z)
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文参考訳（メタデータ） (2024-02-22T18:55:08Z)
DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文参考訳（メタデータ） (2023-12-05T03:16:31Z)
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文参考訳（メタデータ） (2023-10-16T19:03:19Z)
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation [24.190528114994063]
Show-1は、テキスト・ツー・ビデオ生成のためのピクセルベースのVDMと潜在型のVDMを組み合わせたハイブリッドモデルである。遅延VDMと比較して、Show-1は正確なテキスト・ビデオアライメントの高品質なビデオを生成することができる。本モデルは,標準映像生成ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-09-27T17:44:18Z)
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文参考訳（メタデータ） (2023-05-17T17:59:16Z)
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文参考訳（メタデータ） (2023-03-23T17:01:59Z)
Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。本稿では,ビデオ生成のための拡散モデルを提案する。そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文参考訳（メタデータ） (2022-04-07T14:08:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。