Fugu-MT 論文翻訳(概要): DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance

論文の概要: DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance

arxiv url: http://arxiv.org/abs/2312.03018v4
Date: Mon, 16 Sep 2024 16:02:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 03:27:25.383080
Title: DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance
Title（参考訳）: DreamVideo:画像の保持とテキスト誘導機能を備えた高忠実な画像合成
Authors: Cong Wang, Jiaxi Gu, Panwen Hu, Songcen Xu, Hang Xu, Xiaodan Liang,
Abstract要約: 本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
参考スコア（独自算出の注目度）: 69.0740091741732
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image-to-video generation, which aims to generate a video starting from a given reference image, has drawn great attention. Existing methods try to extend pre-trained text-guided image diffusion models to image-guided video generation models. Nevertheless, these methods often result in either low fidelity or flickering over time due to their limitation to shallow image guidance and poor temporal consistency. To tackle these problems, we propose a high-fidelity image-to-video generation method by devising a frame retention branch based on a pre-trained video diffusion model, named DreamVideo. Instead of integrating the reference image into the diffusion process at a semantic level, our DreamVideo perceives the reference image via convolution layers and concatenates the features with the noisy latents as model input. By this means, the details of the reference image can be preserved to the greatest extent. In addition, by incorporating double-condition classifier-free guidance, a single image can be directed to videos of different actions by providing varying prompt texts. This has significant implications for controllable video generation and holds broad application prospects. We conduct comprehensive experiments on the public dataset, and both quantitative and qualitative results indicate that our method outperforms the state-of-the-art method. Especially for fidelity, our model has a powerful image retention ability and delivers the best results in UCF101 compared to other image-to-video models to our best knowledge. Also, precise control can be achieved by giving different text prompts. Further details and comprehensive results of our model will be presented in https://anonymous0769.github.io/DreamVideo/.
Abstract（参考訳）: 参照画像からビデオを生成することを目的とした画像対ビデオ生成が注目されている。既存の方法は、事前訓練されたテキスト誘導画像拡散モデルから画像誘導映像生成モデルへの拡張を試みる。しかしながら、これらの手法は、浅い画像誘導と時間的整合性に限界があるため、低忠実度または時間的変動をもたらすことが多い。これらの問題に対処するために,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。参照画像をセマンティックレベルで拡散処理に統合する代わりに、DreamVideoはコンボリューション層を通じて参照画像を認識し、ノイズの多いラテントをモデル入力として特徴を結合する。これにより、参照画像の詳細を最大限に保存することができる。さらに、二条件分類器フリーガイダンスを組み込むことで、異なるプロンプトテキストを提供することで、異なるアクションのビデオに単一のイメージを向けることができる。これは、制御可能なビデオ生成に重要な意味を持ち、幅広い応用の見通しを持っている。我々は,公開データセットの総合的な実験を行い,定量的および定性的な結果から,本手法が最先端の手法より優れていることを示す。特に忠実度では,このモデルには強力な画像保持能力があり,他の画像から映像までのモデルと比較して,UCF101で最高の結果が得られる。また、異なるテキストプロンプトを与えることで、正確な制御が可能となる。我々のモデルの詳細と包括的な結果はhttps://anonymous0769.github.io/DreamVideo/.com/で発表されます。

関連論文リスト

Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文参考訳（メタデータ） (2024-12-12T18:41:20Z)
Your Image is Secretly the Last Frame of a Pseudo Video [20.161039114393148]
擬似ビデオを用いた他の生成モデルの改善の可能性を検討する。具体的には、まず所定の画像生成モデルをビデオ生成モデルに拡張し、次に元の画像にデータ拡張を適用して構築した擬似ビデオ上でビデオ生成モデルを訓練する。
論文参考訳（メタデータ） (2024-10-26T12:15:25Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文参考訳（メタデータ） (2024-06-03T00:31:13Z)
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文参考訳（メタデータ） (2023-11-25T22:28:38Z)
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文参考訳（メタデータ） (2023-09-01T11:14:43Z)
Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文参考訳（メタデータ） (2022-10-05T14:41:38Z)
Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。本稿では,ビデオ生成のための拡散モデルを提案する。そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文参考訳（メタデータ） (2022-04-07T14:08:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。