論文の概要: VideoLCM: Video Latent Consistency Model
- arxiv url: http://arxiv.org/abs/2312.09109v1
- Date: Thu, 14 Dec 2023 16:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:04:31.861270
- Title: VideoLCM: Video Latent Consistency Model
- Title(参考訳): VideoLCM:ビデオ遅延一貫性モデル
- Authors: Xiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin
Gao, Nong Sang
- Abstract要約: VideoLCMは、既存の遅延ビデオ拡散モデルの上に構築され、遅延一貫性モデルをトレーニングするための一貫性蒸留技術が組み込まれている。
ビデオLCMは4ステップのみのサンプリングで高忠実でスムーズなビデオ合成を実現し,リアルタイム合成の可能性を示す。
- 参考スコア(独自算出の注目度): 52.3311704118393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistency models have demonstrated powerful capability in efficient image
generation and allowed synthesis within a few sampling steps, alleviating the
high computational cost in diffusion models. However, the consistency model in
the more challenging and resource-consuming video generation is still less
explored. In this report, we present the VideoLCM framework to fill this gap,
which leverages the concept of consistency models from image generation to
efficiently synthesize videos with minimal steps while maintaining high
quality. VideoLCM builds upon existing latent video diffusion models and
incorporates consistency distillation techniques for training the latent
consistency model. Experimental results reveal the effectiveness of our
VideoLCM in terms of computational efficiency, fidelity and temporal
consistency. Notably, VideoLCM achieves high-fidelity and smooth video
synthesis with only four sampling steps, showcasing the potential for real-time
synthesis. We hope that VideoLCM can serve as a simple yet effective baseline
for subsequent research. The source code and models will be publicly available.
- Abstract(参考訳): 一貫性モデルは効率的な画像生成において強力な能力を示しており、数回のサンプリングステップで合成が可能であり、拡散モデルにおける高い計算コストを軽減している。
しかし、より困難でリソースを消費するビデオ生成における一貫性モデルは、まだ研究されていない。
本稿では,このギャップを埋めるために,画像生成から一貫性モデルの概念を活用し,高品質を維持しつつ,最小限のステップで映像を効率的に合成するvideolcmフレームワークを提案する。
VideoLCMは、既存の遅延ビデオ拡散モデルの上に構築され、遅延一貫性モデルをトレーニングするための一貫性蒸留技術が組み込まれている。
実験の結果, 計算効率, 忠実度, 時間的一貫性の観点からビデオlcmの有効性が示された。
特に、videolcmは4つのサンプリングステップで高忠実度で滑らかなビデオ合成を実現し、リアルタイム合成の可能性を示している。
videolcmが今後の研究のベースラインとして、シンプルで効果的なものになることを願っています。
ソースコードとモデルは公開される予定だ。
関連論文リスト
- JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation [6.463753697299011]
高品質な時間的コヒーレントなビデオを生成するための新しいアプローチであるJVID(Joint Video-Image Diffusion Model)を導入する。
その結果,現実的かつ一貫性のあるビデオの制作において,定量的かつ質的な改善が示された。
論文 参考訳(メタデータ) (2024-09-21T13:59:50Z) - ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning [36.378348127629195]
ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案する。
このアプローチは、現在のビデオ合成モデルの能力を向上し、時間的長期にわたってコンテンツを制作できるように設計されている。
当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5倍の価格で生成可能なモデル容量を拡大しています。
論文 参考訳(メタデータ) (2024-06-20T09:18:54Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。