論文の概要: OSV: One Step is Enough for High-Quality Image to Video Generation
- arxiv url: http://arxiv.org/abs/2409.11367v1
- Date: Tue, 17 Sep 2024 17:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 15:37:15.517173
- Title: OSV: One Step is Enough for High-Quality Image to Video Generation
- Title(参考訳): OSV:1ステップで高画質映像を再生できる
- Authors: Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang,
- Abstract要約: 一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階トレーニングフレームワークを提案する。
また,ビデオラテントを復号化する必要のない新しいビデオ識別器の設計を提案する。
本モデルでは,高画質映像を1ステップで生成可能であり,多段精細化の柔軟性が期待できる。
- 参考スコア(独自算出の注目度): 29.77646091911169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video diffusion models have shown great potential in generating high-quality videos, making them an increasingly popular focus. However, their inherent iterative nature leads to substantial computational and time costs. While efforts have been made to accelerate video diffusion by reducing inference steps (through techniques like consistency distillation) and GAN training (these approaches often fall short in either performance or training stability). In this work, we introduce a two-stage training framework that effectively combines consistency distillation with GAN training to address these challenges. Additionally, we propose a novel video discriminator design, which eliminates the need for decoding the video latents and improves the final performance. Our model is capable of producing high-quality videos in merely one-step, with the flexibility to perform multi-step refinement for further performance enhancement. Our quantitative evaluation on the OpenWebVid-1M benchmark shows that our model significantly outperforms existing methods. Notably, our 1-step performance(FVD 171.15) exceeds the 8-step performance of the consistency distillation based method, AnimateLCM (FVD 184.79), and approaches the 25-step performance of advanced Stable Video Diffusion (FVD 156.94).
- Abstract(参考訳): ビデオ拡散モデルは高品質なビデオを生成する大きな可能性を示しており、ますます人気が高まっている。
しかし、その本質的に反復的な性質は、かなりの計算と時間的コストをもたらす。
推論ステップ(一貫性蒸留など)とGANトレーニング(これらのアプローチは、パフォーマンスやトレーニングの安定性に欠けることが多い)を減らし、ビデオ拡散を加速する努力がなされている。
本研究では, これらの課題に対処するために, 一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階のトレーニングフレームワークを提案する。
さらに,ビデオラテントを復号化する必要をなくし,最終性能を向上させる新しい映像識別器の設計を提案する。
本モデルでは,高画質映像を1ステップで生成可能であり,さらに性能向上を図るため,多段改良が可能である。
OpenWebVid-1Mベンチマークによる定量的評価は,既存の手法よりも大幅に優れていることを示している。
特に, 安定蒸留法であるAnimateLCM (FVD 184.79) の8段階性能を超え, 高度安定ビデオ拡散法 (FVD 156.94) の25段階性能に近づいた。
関連論文リスト
- VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - QVD: Post-training Quantization for Video Diffusion Models [33.13078954859106]
ポストトレーニング量子化(PTQ)は、メモリフットプリントの削減と計算効率の向上に有効な手法である。
本稿では,QVDと呼ばれるビデオ拡散モデルに適した最初のPTQ戦略を紹介する。
我々は、W8A8のほぼロスレス性能劣化を達成し、FVDの205.12倍の性能向上を実現した。
論文 参考訳(メタデータ) (2024-07-16T10:47:27Z) - Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation [134.22372190926362]
画像拡散蒸留は, 非常に少ないサンプリングステップで高忠実度生成を実現する。
これらのテクニックをビデオ拡散に直接適用すると、公開ビデオデータセットの視覚的品質が制限されるため、フレーム品質が不満足になることが多い。
本研究の目的は,高画質の画像データを用いて,フレームの外観を改善しながらビデオ拡散蒸留を改善することである。
論文 参考訳(メタデータ) (2024-06-11T02:09:46Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。