論文の概要: Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2309.15818v3
- Date: Fri, 30 May 2025 03:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.348434
- Title: Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
- Title(参考訳): Show-1:テキスト・ビデオ・ジェネレーションのための画素・潜時拡散モデルの構築
- Authors: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou,
- Abstract要約: Show-1は、テキスト・ツー・ビデオ生成のためのピクセルベースのVDMと潜在型のVDMを組み合わせたハイブリッドモデルである。
遅延VDMと比較して、Show-1は正確なテキスト・ビデオアライメントの高品質なビデオを生成することができる。
本モデルは,標準映像生成ベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 24.190528114994063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution, which can also remove potential artifacts and corruptions from low-resolution videos. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). Furthermore, our Show-1 model can be readily adapted for motion customization and video stylization applications through simple temporal attention layer finetuning. Our model achieves state-of-the-art performance on standard video generation benchmarks. Our code and model weights are publicly available at https://github.com/showlab/Show-1.
- Abstract(参考訳): 大規模な事前訓練されたテキスト・ビデオ拡散モデル(VDM)の領域において、重要な進歩が達成されている。
しかし、従来の手法は、計算コストの高いピクセルベースのVDMや、テキスト・ビデオの正確なアライメントに苦しむラテントベースのVDMにのみ依存している。
本稿では,テキスト・ツー・ビデオ・ジェネレーションのために,ピクセル・ベースのVDMとラテント・ベースのVDMを組み合わせたShow-1と呼ばれるハイブリッドモデルを提案する。
我々のモデルは、まずピクセルベースのVDMを使用して、強いテキスト-ビデオ相関の低解像度ビデオを生成する。
その後,低解像度映像を高解像度化するための潜伏型VDMを用いた新たな専門家翻訳手法を提案し,低解像度映像から潜在的なアーティファクトや破損を除去する。
ピクセルVDMと比較して、Show-1の方がはるかに効率的である(推論時のGPUメモリ使用量は15G vs 72G)。
さらに,我々のShow-1モデルは,簡易な時間的注意層微細化により,動きのカスタマイズやビデオスタイリングへの応用に容易に適応することができる。
本モデルは,標準映像生成ベンチマークにおける最先端性能を実現する。
コードとモデルの重み付けはhttps://github.com/showlab/Show-1.comで公開されています。
関連論文リスト
- HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation [99.6653979969241]
我々は,HOI生成のための最初の大規模データセットであるHOIGEN-1Mを紹介した。
高品質なビデオを実現するために,我々はまず,強力なマルチモーダル大言語モデル(MLLM)を用いて,HOIビデオを自動的にキュレートする効率的なフレームワークを設計する。
HOIビデオの正確なテキストキャプションを得るために,Mixture-of-Multimodal-Experts(MoME)戦略に基づく新しいビデオ記述手法を設計する。
論文 参考訳(メタデータ) (2025-03-31T04:30:34Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。