論文の概要: DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance
- arxiv url: http://arxiv.org/abs/2312.03018v2
- Date: Sun, 10 Dec 2023 12:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 00:51:48.819791
- Title: DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance
- Title(参考訳): dreamvideo: 画像保持とテキストガイダンスを備えた高忠実度画像対ビデオ生成
- Authors: Cong Wang, Jiaxi Gu, Panwen Hu, Songcen Xu, Hang Xu, Xiaodan Liang
- Abstract要約: 本稿では,事前学習した映像拡散モデルに基づいてフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルは強力な画像保持能力を持ち、他の画像-映像モデルと比較してUCF101のFVDが高い。
- 参考スコア(独自算出の注目度): 73.19191296296988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-video generation, which aims to generate a video starting from a
given reference image, has drawn great attention. Existing methods try to
extend pre-trained text-guided image diffusion models to image-guided video
generation models. Nevertheless, these methods often result in either low
fidelity or flickering over time due to their limitation to shallow image
guidance and poor temporal consistency. To tackle these problems, we propose a
high-fidelity image-to-video generation method by devising a frame retention
branch on the basis of a pre-trained video diffusion model, named DreamVideo.
Instead of integrating the reference image into the diffusion process in a
semantic level, our DreamVideo perceives the reference image via convolution
layers and concatenate the features with the noisy latents as model input. By
this means, the details of the reference image can be preserved to the greatest
extent. In addition, by incorporating double-condition classifier-free
guidance, a single image can be directed to videos of different actions by
providing varying prompt texts. This has significant implications for
controllable video generation and holds broad application prospects. We conduct
comprehensive experiments on the public dataset, both quantitative and
qualitative results indicate that our method outperforms the state-of-the-art
method. Especially for fidelity, our model has powerful image retention ability
and result in high FVD in UCF101 compared to other image-to-video models. Also,
precise control can be achieved by giving different text prompts. Further
details and comprehensive results of our model will be presented in
https://anonymous0769.github.io/DreamVideo/.
- Abstract(参考訳): 参照画像からビデオを生成することを目的とした画像対ビデオ生成が注目されている。
既存の方法は、事前訓練されたテキスト誘導画像拡散モデルから画像誘導映像生成モデルへの拡張を試みる。
それにもかかわらず、これらの手法は、浅い画像誘導と時間的一貫性の欠如により、低い忠実度または時間の経過とともに点滅する。
これらの問題に対処するために,DreamVideo という名前の事前学習ビデオ拡散モデルに基づいてフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
参照画像をセマンティックなレベルで拡散するプロセスに統合する代わりに、DreamVideoはコンボリューション層を通じて参照画像を認識し、ノイズの多いラテントをモデル入力として特徴を結合する。
これにより、参照画像の詳細を最大限に保存することができる。
さらに、ダブルコンディショナライザフリーのガイダンスを組み込むことで、さまざまなプロンプトテキストを提供することで、異なるアクションの動画に単一のイメージを向けることができる。
これは制御可能なビデオ生成に重要な意味を持ち、幅広い応用可能性を持っている。
定量的および定性的な結果から,本手法が最先端の手法より優れていることを示すため,公開データセットの総合的な実験を行った。
特に忠実度では画像保持能力が強く,UCF101では他の画像対映像モデルと比較してFVDが高い。
また、異なるテキストプロンプトを与えることで、正確な制御が可能となる。
このモデルのさらなる詳細と包括的な結果はhttps://anonymous0769.github.io/dreamvideo/で示されます。
関連論文リスト
- Your Image is Secretly the Last Frame of a Pseudo Video [20.161039114393148]
擬似ビデオを用いた他の生成モデルの改善の可能性を検討する。
具体的には、まず所定の画像生成モデルをビデオ生成モデルに拡張し、次に元の画像にデータ拡張を適用して構築した擬似ビデオ上でビデオ生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-10-26T12:15:25Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。