論文の概要: FreeInit: Bridging Initialization Gap in Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.07537v2
- Date: Thu, 25 Jul 2024 09:10:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:46:37.228624
- Title: FreeInit: Bridging Initialization Gap in Video Diffusion Models
- Title(参考訳): FreeInit:ビデオ拡散モデルにおける初期化ギャップを埋める
- Authors: Tianxing Wu, Chenyang Si, Yuming Jiang, Ziqi Huang, Ziwei Liu,
- Abstract要約: FreeInitは、トレーニングと推論のギャップを補うことができ、それによって、生成結果の主観的外観と時間的一貫性を効果的に改善することができる。
実験により、FreeInitはトレーニングや微調整を伴わずに、様々なテキスト・ビデオ拡散モデルの生成品質を一貫して向上させることが示された。
- 参考スコア(独自算出の注目度): 42.38240625514987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though diffusion-based video generation has witnessed rapid progress, the inference results of existing models still exhibit unsatisfactory temporal consistency and unnatural dynamics. In this paper, we delve deep into the noise initialization of video diffusion models, and discover an implicit training-inference gap that attributes to the unsatisfactory inference quality.Our key findings are: 1) the spatial-temporal frequency distribution of the initial noise at inference is intrinsically different from that for training, and 2) the denoising process is significantly influenced by the low-frequency components of the initial noise. Motivated by these observations, we propose a concise yet effective inference sampling strategy, FreeInit, which significantly improves temporal consistency of videos generated by diffusion models. Through iteratively refining the spatial-temporal low-frequency components of the initial latent during inference, FreeInit is able to compensate the initialization gap between training and inference, thus effectively improving the subject appearance and temporal consistency of generation results. Extensive experiments demonstrate that FreeInit consistently enhances the generation quality of various text-to-video diffusion models without additional training or fine-tuning.
- Abstract(参考訳): 拡散に基づくビデオ生成は急速に進歩してきたが、既存のモデルの推論結果は相容れない時間的一貫性と不自然なダイナミクスを示している。
本稿では,映像拡散モデルのノイズ初期化を深く掘り下げ,不満足な推論品質に起因する暗黙のトレーニングと推論のギャップを発見する。
1)初期雑音の時空間周波数分布は訓練時と本質的に異なる。
2) 初期雑音の低周波成分の影響はデノナイジング過程の影響が大きい。
これらの観測により、拡散モデルにより生成されたビデオの時間的一貫性を大幅に改善する、簡潔で効果的な推論サンプリング戦略FreeInitを提案する。
推論中に初期潜伏者の空間的時間的低周波成分を反復的に精製することにより、FreeInitはトレーニングと推論の間の初期化ギャップを補償し、生成結果の主観的外観と時間的一貫性を効果的に改善することができる。
大規模な実験により、FreeInitは、追加のトレーニングや微調整なしに、様々なテキスト・ビデオ拡散モデルの生成品質を一貫して向上することが示された。
関連論文リスト
- Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy [44.09909260046396]
雑音発生過程における雑音予測のステップを削減するための適応拡散法を提案する。
提案手法は, 最大25倍の速度アップを達成し, 元の処理と同一の処理結果を生成するとともに, デノナイズ処理を著しく高速化することができる。
論文 参考訳(メタデータ) (2024-10-13T15:19:18Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models [47.518487213173785]
コンテンツの視覚的品質と一貫性の両方を考慮した新しい定式化を提案する。
コンテントの整合性は,事前学習した拡散モデルのデノナイジングプロセスを利用して視覚的品質を向上させるとともに,入力の構造を維持可能な損失関数によって保証される。
論文 参考訳(メタデータ) (2024-07-14T17:59:56Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly
Detection [89.49600182243306]
我々は拡散モデルを用いて再構成過程をノイズ・ツー・ノームパラダイムに再構成する。
本稿では,拡散モデルにおける従来の反復的復調よりもはるかに高速な高速な一段階復調パラダイムを提案する。
セグメント化サブネットワークは、入力画像とその異常のない復元を用いて画素レベルの異常スコアを予測する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。