論文の概要: VideoCrafter2: Overcoming Data Limitations for High-Quality Video
Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.09047v1
- Date: Wed, 17 Jan 2024 08:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:23:29.716521
- Title: VideoCrafter2: Overcoming Data Limitations for High-Quality Video
Diffusion Models
- Title(参考訳): VideoCrafter2: 高品質ビデオ拡散モデルのためのデータ制限の克服
- Authors: Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao
Weng, Ying Shan
- Abstract要約: 高品質なビデオモデルを実現するために,低品質な映像の活用と高品質な画像の合成の実現可能性について検討する。
我々は、高画質の映像で空間モジュールを微調整することにより、動きの劣化を伴わずに高画質に分布をシフトし、その結果、総称的な高品質な映像モデルを得る。
- 参考スコア(独自算出の注目度): 76.85329896854189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generation aims to produce a video based on a given prompt.
Recently, several commercial video models have been able to generate plausible
videos with minimal noise, excellent details, and high aesthetic scores.
However, these models rely on large-scale, well-filtered, high-quality videos
that are not accessible to the community. Many existing research works, which
train models using the low-quality WebVid-10M dataset, struggle to generate
high-quality videos because the models are optimized to fit WebVid-10M. In this
work, we explore the training scheme of video models extended from Stable
Diffusion and investigate the feasibility of leveraging low-quality videos and
synthesized high-quality images to obtain a high-quality video model. We first
analyze the connection between the spatial and temporal modules of video models
and the distribution shift to low-quality videos. We observe that full training
of all modules results in a stronger coupling between spatial and temporal
modules than only training temporal modules. Based on this stronger coupling,
we shift the distribution to higher quality without motion degradation by
finetuning spatial modules with high-quality images, resulting in a generic
high-quality video model. Evaluations are conducted to demonstrate the
superiority of the proposed method, particularly in picture quality, motion,
and concept composition.
- Abstract(参考訳): テキストからビデオへの生成は、あるプロンプトに基づいてビデオを作成することを目的としている。
近年、いくつかの商用ビデオモデルは、最小限のノイズ、優れた詳細、高い美的スコアで可塑性ビデオを生成することができる。
しかし、これらのモデルは、コミュニティにはアクセスできない大規模でフィルターのとれた高品質なビデオに依存している。
低品質のWebVid-10Mデータセットを使用してモデルをトレーニングする既存の研究の多くは、モデルがWebVid-10Mに適合するように最適化されているため、高品質なビデオを生成するのに苦労している。
本研究では,安定拡散から拡張された映像モデルのトレーニングスキームを調査し,低品質映像と高画質映像の合成による高品質映像モデルの実現可能性について検討する。
まず,ビデオモデルの時間的モジュールと時間的モジュール間の接続と,低品質ビデオへの配信シフトを解析した。
すべてのモジュールの完全なトレーニングは、時間的モジュールのみをトレーニングするよりも、空間的モジュールと時間的モジュールの結合が強くなる。
この強結合に基づき、空間モジュールを高品質の画像で微調整することにより、動作劣化のない高品質な映像モデルに分布をシフトさせる。
提案手法の優位性,特に画質,動き,概念構成において評価を行った。
関連論文リスト
- SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - SNED: Superposition Network Architecture Search for Efficient Video Diffusion Model [41.825824810180215]
本稿では,効率的な映像拡散モデルのための重ね合わせネットワークアーキテクチャ探索手法SNEDを提案する。
提案手法では,様々なモデルコストと解像度の選択肢をターゲットにしたスーパーネットトレーニングパラダイムを採用している。
当社のフレームワークは、高い効率で、さまざまなモデルオプションに匹敵する結果を一貫して生成しています。
論文 参考訳(メタデータ) (2024-05-31T21:12:30Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。