論文の概要: FreeInit: Bridging Initialization Gap in Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.07537v1
- Date: Tue, 12 Dec 2023 18:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 14:41:34.332032
- Title: FreeInit: Bridging Initialization Gap in Video Diffusion Models
- Title(参考訳): FreeInit:ビデオ拡散モデルにおける初期化ギャップを埋める
- Authors: Tianxing Wu, Chenyang Si, Yuming Jiang, Ziqi Huang, Ziwei Liu
- Abstract要約: FreeInitは、トレーニングと推論のギャップを補うことができ、それによって、生成結果の主観的外観と時間的一貫性を効果的に改善することができる。
実験により、FreeInitは、追加のトレーニングなしで様々なテキスト・ビデオ生成モデルの生成結果を継続的に強化することを示した。
- 参考スコア(独自算出の注目度): 45.46979307643286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though diffusion-based video generation has witnessed rapid progress, the
inference results of existing models still exhibit unsatisfactory temporal
consistency and unnatural dynamics. In this paper, we delve deep into the noise
initialization of video diffusion models, and discover an implicit
training-inference gap that attributes to the unsatisfactory inference quality.
Our key findings are: 1) the spatial-temporal frequency distribution of the
initial latent at inference is intrinsically different from that for training,
and 2) the denoising process is significantly influenced by the low-frequency
components of the initial noise. Motivated by these observations, we propose a
concise yet effective inference sampling strategy, FreeInit, which
significantly improves temporal consistency of videos generated by diffusion
models. Through iteratively refining the spatial-temporal low-frequency
components of the initial latent during inference, FreeInit is able to
compensate the initialization gap between training and inference, thus
effectively improving the subject appearance and temporal consistency of
generation results. Extensive experiments demonstrate that FreeInit
consistently enhances the generation results of various text-to-video
generation models without additional training.
- Abstract(参考訳): 拡散に基づくビデオ生成は急速に進歩してきたが、既存のモデルの推論結果は相容れない時間的一貫性と不自然なダイナミクスを示している。
本稿では,映像拡散モデルのノイズ初期化を深く掘り下げ,不満足な推論品質に起因した暗黙のトレーニングと推論のギャップを発見する。
私たちの重要な発見は
1) 推定における初期潜伏者の空間-時間周波数分布は, 訓練用と本質的に異なる。
2) 消音過程は, 初期雑音の低周波成分の影響を強く受けている。
これらの観測により、拡散モデルにより生成されたビデオの時間的一貫性を大幅に改善する、簡潔で効果的な推論サンプリング戦略FreeInitを提案する。
推論中に初期潜伏者の空間的時間的低周波成分を反復的に精製することにより、FreeInitはトレーニングと推論の間の初期化ギャップを補償し、生成結果の主観的外観と時間的一貫性を効果的に改善することができる。
大規模な実験により、FreeInitは、追加のトレーニングなしで様々なテキスト・ビデオ生成モデルの生成結果を継続的に強化することを示した。
関連論文リスト
- Data Attribution for Diffusion Models: Timestep-induced Bias in
Influence Estimation [58.20016784231991]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Unraveling the Temporal Dynamics of the Unet in Diffusion Models [33.326244121918634]
拡散モデルはガウスノイズをトレーニングデータに導入し、元のデータを反復的に再構築する。
この反復プロセスの中心は単一のUnetであり、生成を容易にするために時間ステップを越えて適応する。
近年の研究では, この生成過程における組成および脱臭相の存在が明らかにされている。
論文 参考訳(メタデータ) (2023-12-17T04:40:33Z) - CLeaRForecast: Contrastive Learning of High-Purity Representations for
Time Series Forecasting [2.5816901096123863]
時系列予測(TSF)は現代社会において重要であり、多くの領域にまたがっている。
従来の表現学習に基づくTSFアルゴリズムは、典型的には、分離された傾向周期表現を特徴とする対照的な学習パラダイムを取り入れている。
CLeaRForecastは,高純度時系列表現をサンプル,特徴量,アーキテクチャ浄化手法を用いて学習するための,新しいコントラスト学習フレームワークである。
論文 参考訳(メタデータ) (2023-12-10T04:37:43Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。