論文の概要: Progressive Autoregressive Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.08151v2
- Date: Sun, 18 May 2025 06:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.260792
- Title: Progressive Autoregressive Video Diffusion Models
- Title(参考訳): プログレッシブ自己回帰ビデオ拡散モデル
- Authors: Desai Xie, Zhan Xu, Yicong Hong, Hao Tan, Difan Liu, Feng Liu, Arie Kaufman, Yang Zhou,
- Abstract要約: 本稿では,映像拡散モデルにおける雑音レベルの仮定を再考することにより,より自然な自己回帰長ビデオ生成法を提案する。
私たちのキーとなるアイデアは、フレームごとにフレームを割り当てることです。
プログレッシブノイズスケジュールを備えたビデオ拡散モデルでは,ベースラインに比べて忠実度が大幅に向上した長いビデオを自動回帰的に生成することができる。
- 参考スコア(独自算出の注目度): 24.97019070991881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current frontier video diffusion models have demonstrated remarkable results at generating high-quality videos. However, they can only generate short video clips, normally around 10 seconds or 240 frames, due to computation limitations during training. Existing methods naively achieve autoregressive long video generation by directly placing the ending of the previous clip at the front of the attention window as conditioning, which leads to abrupt scene changes, unnatural motion, and error accumulation. In this work, we introduce a more natural formulation of autoregressive long video generation by revisiting the noise level assumption in video diffusion models. Our key idea is to 1. assign the frames with per-frame, progressively increasing noise levels rather than a single noise level and 2. denoise and shift the frames in small intervals rather than all at once. This allows for smoother attention correspondence among frames with adjacent noise levels, larger overlaps between the attention windows, and better propagation of information from the earlier to the later frames. Video diffusion models equipped with our progressive noise schedule can autoregressively generate long videos with much improved fidelity compared to the baselines and minimal quality degradation over time. We present the first results on text-conditioned 60-second (1440 frames) long video generation at a quality close to frontier models. Code and video results are available at https://desaixie.github.io/pa-vdm/.
- Abstract(参考訳): 現在のフロンティアビデオ拡散モデルでは、高品質なビデオを生成する際、顕著な結果が示されている。
しかし、トレーニング中の計算制限のため、通常は10秒ないし240フレーム程度の短いビデオクリップしか生成できない。
既存の方法は、アテンションウィンドウの前面に前のクリップの終端を直接コンディショニングとして配置することで、突然のシーン変化、不自然な動き、エラー蓄積を生かして、自己回帰長ビデオ生成を自然に行う。
本研究では,映像拡散モデルにおける雑音レベルの仮定を再考することにより,より自然な自己回帰長ビデオ生成法を提案する。
私たちのキーとなるアイデアは
1.フレームごとにフレームを割り当て、単一のノイズレベルではなく、徐々にノイズレベルを上昇させます。
2.全てを一度にではなく、小さな間隔でフレームを飾ったりシフトさせたりすること。
これにより、隣接するノイズレベルを持つフレーム間のよりスムーズなアテンション対応、アテンションウィンドウ間の大きなオーバーラップ、および以前のフレームから後期フレームへの情報の伝搬が改善される。
プログレッシブノイズスケジュールを備えたビデオ拡散モデルは、ベースラインと時間とともに最小品質の劣化に比較して、忠実度が大幅に向上した長いビデオを自動回帰的に生成することができる。
テキスト条件付き60秒(1440フレーム)長ビデオ生成において,フロンティアモデルに近い品質で最初の結果を示す。
コードとビデオの結果はhttps://desaixie.github.io/pa-vdm/.com/で公開されている。
関連論文リスト
- Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文 参考訳(メタデータ) (2024-08-21T08:01:00Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - SmoothVideo: Smooth Video Synthesis with Noise Constraints on Diffusion
Models for One-shot Video Tuning [18.979299814757997]
ワンショットビデオチューニング手法は、不整合と不整合によってマージされたビデオを生成する。
本稿では,ビデオフレーム間の簡易かつ効果的なノイズ制約を提案する。
既存のワンショットビデオチューニング手法にロスを適用することで、生成されたビデオの全体的な一貫性と滑らかさを大幅に改善する。
論文 参考訳(メタデータ) (2023-11-29T11:14:43Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。