論文の概要: Training-free Long Video Generation with Chain of Diffusion Model Experts
- arxiv url: http://arxiv.org/abs/2408.13423v1
- Date: Sat, 24 Aug 2024 01:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 19:39:20.371119
- Title: Training-free Long Video Generation with Chain of Diffusion Model Experts
- Title(参考訳): 拡散モデルエキスパートの連鎖による無訓練長ビデオ生成
- Authors: Wenhao Li, Yichao Cao, Xie Su, Xi Lin, Shan You, Mingkai Zheng, Yi Chen, Chang Xu,
- Abstract要約: ConFinerは、ビデオ生成をより簡単なサブタスクに分離する、効率的な高品質なビデオ生成フレームワークである。
オフザシェルフ拡散モデルの専門家の鎖で高品質なビデオを生成することができ、それぞれが分離されたサブタスクを担当している。
私たちのフレームワークは、すべての客観的および主観的メトリクスにわたって、LavieやModelscopeのような代表的なモデルを超えています。
- 参考スコア(独自算出の注目度): 48.263816294633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation models hold substantial potential in areas such as filmmaking. However, current video diffusion models need high computational costs and produce suboptimal results due to high complexity of video generation task. In this paper, we propose \textbf{ConFiner}, an efficient high-quality video generation framework that decouples video generation into easier subtasks: structure \textbf{con}trol and spatial-temporal re\textbf{fine}ment. It can generate high-quality videos with chain of off-the-shelf diffusion model experts, each expert responsible for a decoupled subtask. During the refinement, we introduce coordinated denoising, which can merge multiple diffusion experts' capabilities into a single sampling. Furthermore, we design ConFiner-Long framework, which can generate long coherent video with three constraint strategies on ConFiner. Experimental results indicate that with only 10\% of the inference cost, our ConFiner surpasses representative models like Lavie and Modelscope across all objective and subjective metrics. And ConFiner-Long can generate high-quality and coherent videos with up to 600 frames.
- Abstract(参考訳): ビデオ生成モデルは、映画製作などの分野で大きな可能性を秘めている。
しかし、現在のビデオ拡散モデルでは、高い計算コストが必要であり、ビデオ生成タスクの複雑さのため、最適以下の結果が得られる。
本稿では,ビデオ生成をより簡単なサブタスクに分解する,効率的な高品質なビデオ生成フレームワークである \textbf{ConFiner} を提案する。
オフザシェルフ拡散モデルの専門家の鎖で高品質なビデオを生成することができ、それぞれが切り離されたサブタスクを担当している。
改良期間中に,複数の拡散専門家の能力を単一のサンプリングにマージできるコーディネート・デノナイジングを導入する。
さらに,ConFiner-Long フレームワークを設計し,ConFiner 上で3つの制約戦略で長いコヒーレントなビデオを生成する。
実験の結果、推測コストのわずか10%のコストで、私たちのConFinerは、すべての客観的および主観的メトリクスでLavieやModelscopeのような代表モデルを超えています。
そしてConFiner-Longは、600フレームまでの高品質でコヒーレントなビデオを生成することができる。
関連論文リスト
- Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。
元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。
フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文 参考訳(メタデータ) (2024-10-08T12:10:37Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。
我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。
また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文 参考訳(メタデータ) (2023-12-11T18:59:57Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。