論文の概要: Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2406.15735v1
- Date: Sat, 22 Jun 2024 04:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:54:52.655764
- Title: Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model
- Title(参考訳): 画像-映像拡散モデルにおける条件付き画像漏洩の同定と解法
- Authors: Min Zhao, Hongzhou Zhu, Chendong Xiang, Kaiwen Zheng, Chongxuan Li, Jun Zhu,
- Abstract要約: I2V拡散モデル(I2V-DM)は、ノイズの多い入力からクリーンな映像を予測する重要なタスクを無視して、条件付き画像に過度に依存する傾向にある。
我々は、I2V-DMの信頼性の低い遅延ステップを避けるために、早期段階から生成プロセスを開始するトレーニングフリー推論戦略を導入する。
本研究では,条件画像に対する時間依存性のノイズ分布を設計し,条件画像に十分な干渉を与えるため,大規模ステップでの高雑音レベルを優先する。
- 参考スコア(独自算出の注目度): 31.70050311326183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have obtained substantial progress in image-to-video (I2V) generation. However, such models are not fully understood. In this paper, we report a significant but previously overlooked issue in I2V diffusion models (I2V-DMs), namely, conditional image leakage. I2V-DMs tend to over-rely on the conditional image at large time steps, neglecting the crucial task of predicting the clean video from noisy inputs, which results in videos lacking dynamic and vivid motion. We further address this challenge from both inference and training aspects by presenting plug-and-play strategies accordingly. First, we introduce a training-free inference strategy that starts the generation process from an earlier time step to avoid the unreliable late-time steps of I2V-DMs, as well as an initial noise distribution with optimal analytic expressions (Analytic-Init) by minimizing the KL divergence between it and the actual marginal distribution to effectively bridge the training-inference gap. Second, to mitigate conditional image leakage during training, we design a time-dependent noise distribution for the conditional image, which favors high noise levels at large time steps to sufficiently interfere with the conditional image. We validate these strategies on various I2V-DMs using our collected open-domain image benchmark and the UCF101 dataset. Extensive results demonstrate that our methods outperform baselines by producing videos with more dynamic and natural motion without compromising image alignment and temporal consistency. The project page: \url{https://cond-image-leak.github.io/}.
- Abstract(参考訳): 拡散モデルは、画像間(I2V)生成においてかなり進歩している。
しかし、そのようなモデルは完全には理解されていない。
本稿では,I2V拡散モデル(I2V-DMs)における重要な問題,すなわち条件付き画像リークについて報告する。
I2V-DMは、ノイズの多い入力からクリーンなビデオを予測する重要なタスクを無視し、大きなステップで条件付き画像を過度に頼りにしがちである。
さらに,プラグイン・アンド・プレイ戦略を提示することで,推論とトレーニングの両面からこの課題に対処する。
まず、I2V-DMの信頼性の低い遅延時間ステップを回避するために、早い段階から生成プロセスを開始するトレーニングフリー推論戦略を導入し、トレーニング-推論ギャップを効果的に橋渡しするために、KLの分散を最小化することにより、最適な解析式(Analytic-Init)による初期ノイズ分布を導出する。
第2に,条件画像リークを軽減するため,条件画像の時間依存性雑音分布を設計し,条件画像に十分干渉するために,大規模ステップでの高雑音レベルを優先する。
収集したオープンドメイン画像ベンチマークとUCF101データセットを用いて,様々なI2V-DM上でこれらの戦略を検証する。
画像のアライメントや時間的一貫性を損なうことなく、よりダイナミックで自然な動画を制作することで、本手法がベースラインより優れていることを示す。
プロジェクトページ: \url{https://cond-image-leak.github.io/}。
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。
本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。
本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - One-Step Image Translation with Text-to-Image Models [35.0987002313882]
本稿では,新たな課題や領域に一段階拡散モデルを適用するための汎用的手法を提案する。
我々は,バニラ潜在拡散モデルの様々なモジュールを,小さなトレーニング可能な重みを持つ単一エンドツーエンドのジェネレータネットワークに統合する。
我々のモデルであるCycleGAN-Turboは、様々なシーン翻訳タスクにおいて、既存のGANベースおよび拡散ベースの手法より優れています。
論文 参考訳(メタデータ) (2024-03-18T17:59:40Z) - Decoupled Diffusion Models: Simultaneous Image to Zero and Zero to Noise [53.04220377034574]
10機能未満の高画質(未条件)の画像生成のためのデカップリング拡散モデル(DDM)を提案する。
我々は,1) 画像から0遷移までをモデル化した解析的遷移確率に基づいて, 学習目標と(2) サンプリング式を逆時間に導出する。
1)無条件画像生成, CIFAR-10, CelebA-HQ-256, 2)超解像, 塩分検出, エッジ検出, 画像入力などの下流処理, テキスト処理, テキスト処理, テキスト処理, テキスト処理, 画像処理, 画像処理などと比較して, 非常に競争力のある性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。