論文の概要: Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video
Generation
- arxiv url: http://arxiv.org/abs/2309.15818v1
- Date: Wed, 27 Sep 2023 17:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:33:53.579901
- Title: Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video
Generation
- Title(参考訳): show-1: テキスト対ビデオ生成のためのピクセルと潜在拡散モデルの統合
- Authors: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin
Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
- Abstract要約: そこで我々は,Show-1と呼ばれるハイブリッドモデルを提案し,テキスト・ツー・ビデオ生成のための画素ベースのVDMと潜在型のVDMを結合する。
遅延VDMと比較して、Show-1は正確なテキスト・ビデオアライメントの高品質なビデオを生成することができる。
- 参考スコア(独自算出の注目度): 25.232419147888546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant advancements have been achieved in the realm of large-scale
pre-trained text-to-video Diffusion Models (VDMs). However, previous methods
either rely solely on pixel-based VDMs, which come with high computational
costs, or on latent-based VDMs, which often struggle with precise text-video
alignment. In this paper, we are the first to propose a hybrid model, dubbed as
Show-1, which marries pixel-based and latent-based VDMs for text-to-video
generation. Our model first uses pixel-based VDMs to produce a low-resolution
video of strong text-video correlation. After that, we propose a novel expert
translation method that employs the latent-based VDMs to further upsample the
low-resolution video to high resolution. Compared to latent VDMs, Show-1 can
produce high-quality videos of precise text-video alignment; Compared to pixel
VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G
vs 72G). We also validate our model on standard video generation benchmarks.
Our code and model weights are publicly available at
\url{https://github.com/showlab/Show-1}.
- Abstract(参考訳): 大規模事前学習されたテキストからビデオへの拡散モデル(vdms)の分野では大きな進歩があった。
しかし、従来の手法は、計算コストの高いピクセルベースのVDMや、テキスト・ビデオの正確なアライメントに苦しむラテントベースのVDMにのみ依存している。
本稿では,テキスト対ビデオ生成のためのピクセルベースと潜在型vdmsを融合したハイブリッドモデル show-1 を提案する。
我々のモデルは、まずピクセルベースのVDMを使用して、強いテキスト-ビデオ相関の低解像度ビデオを生成する。
その後,低解像度映像を高解像度化するために,潜伏型VDMを用いた新たな専門家翻訳手法を提案する。
ピクセルVDMと比較して、Show-1の方がはるかに効率的である(推論時のGPUメモリ使用量は15G対72G)。
また、標準ビデオ生成ベンチマークでモデルを検証する。
コードとモデルの重み付けは \url{https://github.com/showlab/Show-1} で公開されています。
関連論文リスト
- Video Interpolation with Diffusion Models [54.06746595879689]
本稿では,ビデオ生成モデルであるVIDIMについて述べる。
VIDIMはカスケード拡散モデルを用いて、まず低解像度でターゲット映像を生成し、次に低解像度で生成されたビデオに条件付けされた高解像度映像を生成する。
論文 参考訳(メタデータ) (2024-04-01T15:59:32Z) - Grid Diffusion Models for Text-to-Video Generation [2.531998650341267]
既存のビデオ生成手法の多くは、時間次元を考慮した3D U-Netアーキテクチャまたは自己回帰生成を使用する。
アーキテクチャにおける時間次元を伴わないテキスト・ビデオ生成と大規模なテキスト・ビデオ・ペア・データセットのための,単純だが効果的な新しいグリッド拡散法を提案する。
提案手法は,定量評価と定性評価の両方において既存手法より優れている。
論文 参考訳(メタデータ) (2024-03-30T03:50:43Z) - Emu Video: Factorizing Text-to-Video Generation by Explicit Image
Conditioning [60.974391638641954]
生成を2段階に分解するテキスト・ツー・ビデオ生成モデルであるEmu Videoを提案する。
重要設計決定 - 拡散のための調整されたノイズスケジュールと、高品質なビデオを直接生成できるマルチステージトレーニング - を識別する。
人間の評価では、生成したビデオは、以前のすべての作業と比べて、品質が強く優先される。
論文 参考訳(メタデータ) (2023-11-17T18:59:04Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。