論文の概要: Training-free Long Video Generation with Chain of Diffusion Model Experts
- arxiv url: http://arxiv.org/abs/2408.13423v2
- Date: Tue, 27 Aug 2024 07:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 12:43:02.012852
- Title: Training-free Long Video Generation with Chain of Diffusion Model Experts
- Title(参考訳): 拡散モデルエキスパートの連鎖による無訓練長ビデオ生成
- Authors: Wenhao Li, Yichao Cao, Xiu Su, Xi Lin, Shan You, Mingkai Zheng, Yi Chen, Chang Xu,
- Abstract要約: ConFinerは、ビデオ生成をより簡単なサブタスクに分離する、効率的な高品質なビデオ生成フレームワークである。
オフザシェルフ拡散モデルの専門家の鎖で高品質なビデオを生成することができ、それぞれが分離されたサブタスクを担当している。
私たちのフレームワークは、すべての客観的および主観的メトリクスにわたって、LavieやModelscopeのような代表的なモデルを超えています。
- 参考スコア(独自算出の注目度): 54.412180070436065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation models hold substantial potential in areas such as filmmaking. However, current video diffusion models need high computational costs and produce suboptimal results due to high complexity of video generation task. In this paper, we propose \textbf{ConFiner}, an efficient high-quality video generation framework that decouples video generation into easier subtasks: structure \textbf{con}trol and spatial-temporal re\textbf{fine}ment. It can generate high-quality videos with chain of off-the-shelf diffusion model experts, each expert responsible for a decoupled subtask. During the refinement, we introduce coordinated denoising, which can merge multiple diffusion experts' capabilities into a single sampling. Furthermore, we design ConFiner-Long framework, which can generate long coherent video with three constraint strategies on ConFiner. Experimental results indicate that with only 10\% of the inference cost, our ConFiner surpasses representative models like Lavie and Modelscope across all objective and subjective metrics. And ConFiner-Long can generate high-quality and coherent videos with up to 600 frames.
- Abstract(参考訳): ビデオ生成モデルは、映画製作などの分野で大きな可能性を秘めている。
しかし、現在のビデオ拡散モデルでは、高い計算コストが必要であり、ビデオ生成タスクの複雑さのため、最適以下の結果が得られる。
本稿では,ビデオ生成をより簡単なサブタスクに分解する,効率的な高品質なビデオ生成フレームワークである \textbf{ConFiner} を提案する。
オフザシェルフ拡散モデルの専門家の鎖で高品質なビデオを生成することができ、それぞれが切り離されたサブタスクを担当している。
改良期間中に,複数の拡散専門家の能力を単一のサンプリングにマージできるコーディネート・デノナイジングを導入する。
さらに,ConFiner-Long フレームワークを設計し,ConFiner 上で3つの制約戦略で長いコヒーレントなビデオを生成する。
実験の結果、推測コストのわずか10%のコストで、私たちのConFinerは、すべての客観的および主観的メトリクスでLavieやModelscopeのような代表モデルを超えています。
そしてConFiner-Longは、600フレームまでの高品質でコヒーレントなビデオを生成することができる。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。
我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。
また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文 参考訳(メタデータ) (2023-12-11T18:59:57Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。