論文の概要: VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide
- arxiv url: http://arxiv.org/abs/2410.04364v3
- Date: Sun, 08 Dec 2024 18:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:51:40.169930
- Title: VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide
- Title(参考訳): 教師の指導要領を通さずにビデオ拡散モデルを改善するビデオガイド
- Authors: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye,
- Abstract要約: VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 48.22321420680046
- License:
- Abstract: Text-to-image (T2I) diffusion models have revolutionized visual content creation, but extending these capabilities to text-to-video (T2V) generation remains a challenge, particularly in preserving temporal consistency. Existing methods that aim to improve consistency often cause trade-offs such as reduced imaging quality and impractical computational time. To address these issues we introduce VideoGuide, a novel framework that enhances the temporal consistency of pretrained T2V models without the need for additional training or fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model (VDM) or itself as a guide during the early stages of inference, improving temporal quality by interpolating the guiding model's denoised samples into the sampling model's denoising process. The proposed method brings about significant improvement in temporal consistency and image fidelity, providing a cost-effective and practical solution that synergizes the strengths of various video diffusion models. Furthermore, we demonstrate prior distillation, revealing that base models can achieve enhanced text coherence by utilizing the superior data prior of the guiding model through the proposed method. Project Page: https://dohunlee1.github.io/videoguide.github.io/
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは、視覚的コンテンツ生成に革命をもたらしたが、これらの機能をテキスト・ツー・ビデオ(T2V)生成に拡張することは、特に時間的一貫性を維持する上で課題である。
一貫性向上を目的とした既存の手法は、画像品質の低下や非現実的な計算時間といったトレードオフを引き起こすことが多い。
これらの問題に対処するために、トレーニングや微調整を必要とせず、事前訓練されたT2Vモデルの時間的一貫性を高める新しいフレームワークであるVideoGuideを紹介します。
代わりに、VideoGuideは、推論の初期段階において、事前訓練されたビデオ拡散モデル(VDM)またはそれ自身をガイドとして利用し、サンプリングモデルの分極化プロセスに導出モデルの分極化サンプルを補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させ,様々な映像拡散モデルの強度を相乗化するための費用対効果と実用的なソリューションを提供する。
さらに, 提案手法により, 導出モデルに先行する優れたデータを活用することにより, 基本モデルによるテキスト一貫性の向上が可能であることを示す。
Project Page: https://dohunlee1.github.io/videoguide.github.io/
関連論文リスト
- FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。
本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。
本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - HARIVO: Harnessing Text-to-Image Models for Video Generation [45.63338167699105]
本稿では,事前学習されたテキスト・ツー・イメージ(T2I)モデルから拡散に基づく映像モデルを作成する手法を提案する。
鍵となる革新は、時間的滑らか性のための新しい損失関数と緩和勾配サンプリング技術である。
凍結したStableDiffusionモデルに基づいて構築され、トレーニングプロセスを単純化し、ControlNetやDreamBoothといった市販モデルとのシームレスな統合を可能にします。
論文 参考訳(メタデータ) (2024-10-10T09:47:39Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。