Fugu-MT 論文翻訳(概要): Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation

論文の概要: Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation

arxiv url: http://arxiv.org/abs/2309.15818v1
Date: Wed, 27 Sep 2023 17:44:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 12:33:53.579901
Title: Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
Title（参考訳）: show-1: テキスト対ビデオ生成のためのピクセルと潜在拡散モデルの統合
Authors: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
Abstract要約: そこで我々は,Show-1と呼ばれるハイブリッドモデルを提案し,テキスト・ツー・ビデオ生成のための画素ベースのVDMと潜在型のVDMを結合する。遅延VDMと比較して、Show-1は正確なテキスト・ビデオアライメントの高品質なビデオを生成することができる。
参考スコア（独自算出の注目度）: 25.232419147888546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). We also validate our model on standard video generation benchmarks. Our code and model weights are publicly available at \url{https://github.com/showlab/Show-1}.
Abstract（参考訳）: 大規模事前学習されたテキストからビデオへの拡散モデル(vdms)の分野では大きな進歩があった。しかし、従来の手法は、計算コストの高いピクセルベースのVDMや、テキスト・ビデオの正確なアライメントに苦しむラテントベースのVDMにのみ依存している。本稿では,テキスト対ビデオ生成のためのピクセルベースと潜在型vdmsを融合したハイブリッドモデル show-1 を提案する。我々のモデルは、まずピクセルベースのVDMを使用して、強いテキスト-ビデオ相関の低解像度ビデオを生成する。その後,低解像度映像を高解像度化するために,潜伏型VDMを用いた新たな専門家翻訳手法を提案する。ピクセルVDMと比較して、Show-1の方がはるかに効率的である(推論時のGPUメモリ使用量は15G対72G)。また、標準ビデオ生成ベンチマークでモデルを検証する。コードとモデルの重み付けは \url{https://github.com/showlab/Show-1} で公開されています。

関連論文リスト

HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation [99.6653979969241]
我々は,HOI生成のための最初の大規模データセットであるHOIGEN-1Mを紹介した。高品質なビデオを実現するために,我々はまず,強力なマルチモーダル大言語モデル(MLLM)を用いて,HOIビデオを自動的にキュレートする効率的なフレームワークを設計する。 HOIビデオの正確なテキストキャプションを得るために,Mixture-of-Multimodal-Experts(MoME)戦略に基づく新しいビデオ記述手法を設計する。
論文参考訳（メタデータ） (2025-03-31T04:30:34Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。フレームレートは16fps、解像度は768×1360ピクセル。
論文参考訳（メタデータ） (2024-08-12T11:47:11Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
Video Interpolation with Diffusion Models [54.06746595879689]
本稿では,ビデオ生成モデルであるVIDIMについて述べる。 VIDIMはカスケード拡散モデルを用いて、まず低解像度でターゲット映像を生成し、次に低解像度で生成されたビデオに条件付けされた高解像度映像を生成する。
論文参考訳（メタデータ） (2024-04-01T15:59:32Z)
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文参考訳（メタデータ） (2023-09-01T11:14:43Z)
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文参考訳（メタデータ） (2023-04-18T08:30:32Z)
Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。本稿では,ビデオ生成のための拡散モデルを提案する。そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文参考訳（メタデータ） (2022-04-07T14:08:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。