論文の概要: CV-VAE: A Compatible Video VAE for Latent Generative Video Models
- arxiv url: http://arxiv.org/abs/2405.20279v1
- Date: Thu, 30 May 2024 17:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:09:46.969816
- Title: CV-VAE: A Compatible Video VAE for Latent Generative Video Models
- Title(参考訳): CV-VAE: 次世代ビデオモデルのための互換性のあるビデオVAE
- Authors: Sijie Zhao, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Muyao Niu, Xiaoyu Li, Wenbo Hu, Ying Shan,
- Abstract要約: 可変エンコーダ(VAE)は、OpenAIのビデオの自動時間圧縮において重要な役割を果たす。
現在、潜伏拡散に基づくビデオモデルによく使われる連続ビデオ(3D)VAEが欠けている。
本稿では,静止空間が与えられた画像VAEと互換性のある映像モデル,CV-VAEの映像VAEをトレーニングする方法を提案する。
- 参考スコア(独自算出の注目度): 45.702473834294146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatio-temporal compression of videos, utilizing networks such as Variational Autoencoders (VAE), plays a crucial role in OpenAI's SORA and numerous other video generative models. For instance, many LLM-like video models learn the distribution of discrete tokens derived from 3D VAEs within the VQVAE framework, while most diffusion-based video models capture the distribution of continuous latent extracted by 2D VAEs without quantization. The temporal compression is simply realized by uniform frame sampling which results in unsmooth motion between consecutive frames. Currently, there lacks of a commonly used continuous video (3D) VAE for latent diffusion-based video models in the research community. Moreover, since current diffusion-based approaches are often implemented using pre-trained text-to-image (T2I) models, directly training a video VAE without considering the compatibility with existing T2I models will result in a latent space gap between them, which will take huge computational resources for training to bridge the gap even with the T2I models as initialization. To address this issue, we propose a method for training a video VAE of latent video models, namely CV-VAE, whose latent space is compatible with that of a given image VAE, e.g., image VAE of Stable Diffusion (SD). The compatibility is achieved by the proposed novel latent space regularization, which involves formulating a regularization loss using the image VAE. Benefiting from the latent space compatibility, video models can be trained seamlessly from pre-trained T2I or video models in a truly spatio-temporally compressed latent space, rather than simply sampling video frames at equal intervals. With our CV-VAE, existing video models can generate four times more frames with minimal finetuning. Extensive experiments are conducted to demonstrate the effectiveness of the proposed video VAE.
- Abstract(参考訳): 可変オートエンコーダ(VAE)などのネットワークを利用したビデオの時空間圧縮は、OpenAIのSORAや他の多くのビデオ生成モデルにおいて重要な役割を果たす。
例えば、多くのLCMのようなビデオモデルは、VQVAEフレームワーク内で3次元VAEから派生した離散トークンの分布を学習し、多くの拡散ベースのビデオモデルは、量子化せずに2次元VAEによって抽出された連続ラテントの分布をキャプチャする。
時間圧縮は、連続するフレーム間の不規則な動きをもたらす一様フレームサンプリングによって簡単に実現できる。
現在、研究コミュニティでは、潜伏拡散に基づくビデオモデルによく使われる連続ビデオ(3D)VAEが欠落している。
さらに、現在の拡散ベースのアプローチは、事前訓練されたテキスト・トゥ・イメージ(T2I)モデルを用いて実装されることが多いため、既存のT2Iモデルとの互換性を考慮せずにビデオVAEを直接トレーニングすると、それらの間の空間ギャップが遅延し、初期化としてT2Iモデルであっても、そのギャップを埋めるための膨大な計算資源が必要とされる。
そこで本研究では,静止拡散(SD)の映像VAE,例えば画像VAE,eg,画像VAEと遅延空間が互換性のあるビデオモデルであるCV-VAEの映像VAEをトレーニングする手法を提案する。
この互換性は、画像VAEを用いて正規化損失を定式化する新しい潜在空間正規化によって達成される。
遅延空間との互換性から、ビデオモデルは、ビデオフレームを等間隔でサンプリングするのではなく、真に時空間的に時間的に圧縮された遅延空間において、事前訓練されたT2Iまたはビデオモデルからシームレスに訓練することができる。
CV-VAEでは、既存のビデオモデルは最小限の微調整で4倍のフレームを生成することができる。
提案したビデオVAEの有効性を示すため,大規模な実験を行った。
関連論文リスト
- SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。