Fugu-MT 論文翻訳(概要): FreeInit: Bridging Initialization Gap in Video Diffusion Models

論文の概要: FreeInit: Bridging Initialization Gap in Video Diffusion Models

arxiv url: http://arxiv.org/abs/2312.07537v1
Date: Tue, 12 Dec 2023 18:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 14:41:34.332032
Title: FreeInit: Bridging Initialization Gap in Video Diffusion Models
Title（参考訳）: FreeInit:ビデオ拡散モデルにおける初期化ギャップを埋める
Authors: Tianxing Wu, Chenyang Si, Yuming Jiang, Ziqi Huang, Ziwei Liu
Abstract要約: FreeInitは、トレーニングと推論のギャップを補うことができ、それによって、生成結果の主観的外観と時間的一貫性を効果的に改善することができる。実験により、FreeInitは、追加のトレーニングなしで様々なテキスト・ビデオ生成モデルの生成結果を継続的に強化することを示した。
参考スコア（独自算出の注目度）: 45.46979307643286
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Though diffusion-based video generation has witnessed rapid progress, the inference results of existing models still exhibit unsatisfactory temporal consistency and unnatural dynamics. In this paper, we delve deep into the noise initialization of video diffusion models, and discover an implicit training-inference gap that attributes to the unsatisfactory inference quality. Our key findings are: 1) the spatial-temporal frequency distribution of the initial latent at inference is intrinsically different from that for training, and 2) the denoising process is significantly influenced by the low-frequency components of the initial noise. Motivated by these observations, we propose a concise yet effective inference sampling strategy, FreeInit, which significantly improves temporal consistency of videos generated by diffusion models. Through iteratively refining the spatial-temporal low-frequency components of the initial latent during inference, FreeInit is able to compensate the initialization gap between training and inference, thus effectively improving the subject appearance and temporal consistency of generation results. Extensive experiments demonstrate that FreeInit consistently enhances the generation results of various text-to-video generation models without additional training.
Abstract（参考訳）: 拡散に基づくビデオ生成は急速に進歩してきたが、既存のモデルの推論結果は相容れない時間的一貫性と不自然なダイナミクスを示している。本稿では,映像拡散モデルのノイズ初期化を深く掘り下げ,不満足な推論品質に起因した暗黙のトレーニングと推論のギャップを発見する。私たちの重要な発見は 1) 推定における初期潜伏者の空間-時間周波数分布は, 訓練用と本質的に異なる。 2) 消音過程は, 初期雑音の低周波成分の影響を強く受けている。これらの観測により、拡散モデルにより生成されたビデオの時間的一貫性を大幅に改善する、簡潔で効果的な推論サンプリング戦略FreeInitを提案する。推論中に初期潜伏者の空間的時間的低周波成分を反復的に精製することにより、FreeInitはトレーニングと推論の間の初期化ギャップを補償し、生成結果の主観的外観と時間的一貫性を効果的に改善することができる。大規模な実験により、FreeInitは、追加のトレーニングなしで様々なテキスト・ビデオ生成モデルの生成結果を継続的に強化することを示した。

関連論文リスト

Causality in Video Diffusers is Separable from Denoising [38.11368818072302]
因果関係は、ビデオ、言語、ロボット軌道など、多くの複雑な生成過程の基盤となっている。現在の因果拡散モデルでは、時間的推論を反復的妄想と結び付け、すべての層に因果的注意を向ける。これらのモデルにおける因果推論は、多段階の分極過程から分離可能であることを示す。これらの知見に触発されて、多段階フレームワイドレンダリングから因果トランスフォーマーエンコーダを介して、1フレーム毎の時間的推論を明示的に分離する新しいアーキテクチャであるSCD(Separable Causal Diffusion)を導入する。
論文参考訳（メタデータ） (2026-02-10T18:57:21Z)
Improving Temporal Consistency and Fidelity at Inference-time in Perceptual Video Restoration by Zero-shot Image-based Diffusion Models [5.61537470581101]
ゼロショット画像ベース拡散モデルを用いたビデオ再生における時間的コヒーレンス向上の課題に対処する。本稿では,PSG(Perceptual Straightening Guidance)とMPES(Ensemble Sampling)の2つの補完的推論時間戦略を提案する。
論文参考訳（メタデータ） (2025-10-29T11:40:06Z)
Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文参考訳（メタデータ） (2025-06-11T06:01:39Z)
ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos [32.14142910911528]
ビデオ拡散モデル(VDM)は高品質のビデオの生成を容易にする。近年,映像の質を高める「金音」の存在が報告されている。本研究では,拡散サンプリングプロセスにおける黄金の初期雑音を識別する,プラグアンドプレイの推論時間探索手法であるScalingNoiseを提案する。
論文参考訳（メタデータ） (2025-03-20T17:54:37Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-03-02T16:10:32Z)
Diffusion-based Perceptual Neural Video Compression with Temporal Diffusion Information Reuse [45.134271969594614]
DiffVCは拡散型知覚型ニューラルビデオ圧縮フレームワークである。基礎拡散モデルとビデオ条件符号化パラダイムを統合する。提案手法は,知覚指標と視覚的品質の両方において優れた性能を提供することを示す。
論文参考訳（メタデータ） (2025-01-23T10:23:04Z)
Video Summarization using Denoising Diffusion Probabilistic Model [21.4190413531697]
本稿では,確率分布の観点から要約を生成する方法を学ぶ,映像要約のための生成フレームワークを提案する。具体的には、雑音予測によりトレーニングデータの確率分布を学習するDDPM(Denoising Diffusion Probabilistic Model)に基づく新しい拡散要約法を提案する。提案手法は主観的アノテーションノイズに耐性があり,識別法よりも訓練データを過度に適合させる傾向が低く,高い一般化能力を有する。
論文参考訳（メタデータ） (2024-12-11T13:02:09Z)
Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy [44.09909260046396]
雑音発生過程における雑音予測のステップを削減するための適応拡散法を提案する。提案手法は, 最大25倍の速度アップを達成し, 元の処理と同一の処理結果を生成するとともに, デノナイズ処理を著しく高速化することができる。
論文参考訳（メタデータ） (2024-10-13T15:19:18Z)
Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文参考訳（メタデータ） (2024-10-08T07:33:49Z)
Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models [47.518487213173785]
コンテンツの視覚的品質と一貫性の両方を考慮した新しい定式化を提案する。コンテントの整合性は,事前学習した拡散モデルのデノナイジングプロセスを利用して視覚的品質を向上させるとともに,入力の構造を維持可能な損失関数によって保証される。
論文参考訳（メタデータ） (2024-07-14T17:59:56Z)
One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。 OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文参考訳（メタデータ） (2023-11-27T12:02:42Z)
APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文参考訳（メタデータ） (2023-08-24T07:11:00Z)
DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [89.49600182243306]
我々は拡散モデルを用いて再構成過程をノイズ・ツー・ノームパラダイムに再構成する。本稿では,拡散モデルにおける従来の反復的復調よりもはるかに高速な高速な一段階復調パラダイムを提案する。セグメント化サブネットワークは、入力画像とその異常のない復元を用いて画素レベルの異常スコアを予測する。
論文参考訳（メタデータ） (2023-03-15T16:14:06Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)
ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文参考訳（メタデータ） (2023-02-05T12:48:21Z)
Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文参考訳（メタデータ） (2022-09-10T22:00:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。