論文の概要: Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video
Generation
- arxiv url: http://arxiv.org/abs/2309.15818v1
- Date: Wed, 27 Sep 2023 17:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:33:53.579901
- Title: Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video
Generation
- Title(参考訳): show-1: テキスト対ビデオ生成のためのピクセルと潜在拡散モデルの統合
- Authors: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin
Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
- Abstract要約: そこで我々は,Show-1と呼ばれるハイブリッドモデルを提案し,テキスト・ツー・ビデオ生成のための画素ベースのVDMと潜在型のVDMを結合する。
遅延VDMと比較して、Show-1は正確なテキスト・ビデオアライメントの高品質なビデオを生成することができる。
- 参考スコア(独自算出の注目度): 25.232419147888546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant advancements have been achieved in the realm of large-scale
pre-trained text-to-video Diffusion Models (VDMs). However, previous methods
either rely solely on pixel-based VDMs, which come with high computational
costs, or on latent-based VDMs, which often struggle with precise text-video
alignment. In this paper, we are the first to propose a hybrid model, dubbed as
Show-1, which marries pixel-based and latent-based VDMs for text-to-video
generation. Our model first uses pixel-based VDMs to produce a low-resolution
video of strong text-video correlation. After that, we propose a novel expert
translation method that employs the latent-based VDMs to further upsample the
low-resolution video to high resolution. Compared to latent VDMs, Show-1 can
produce high-quality videos of precise text-video alignment; Compared to pixel
VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G
vs 72G). We also validate our model on standard video generation benchmarks.
Our code and model weights are publicly available at
\url{https://github.com/showlab/Show-1}.
- Abstract(参考訳): 大規模事前学習されたテキストからビデオへの拡散モデル(vdms)の分野では大きな進歩があった。
しかし、従来の手法は、計算コストの高いピクセルベースのVDMや、テキスト・ビデオの正確なアライメントに苦しむラテントベースのVDMにのみ依存している。
本稿では,テキスト対ビデオ生成のためのピクセルベースと潜在型vdmsを融合したハイブリッドモデル show-1 を提案する。
我々のモデルは、まずピクセルベースのVDMを使用して、強いテキスト-ビデオ相関の低解像度ビデオを生成する。
その後,低解像度映像を高解像度化するために,潜伏型VDMを用いた新たな専門家翻訳手法を提案する。
ピクセルVDMと比較して、Show-1の方がはるかに効率的である(推論時のGPUメモリ使用量は15G対72G)。
また、標準ビデオ生成ベンチマークでモデルを検証する。
コードとモデルの重み付けは \url{https://github.com/showlab/Show-1} で公開されています。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。