論文の概要: Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2406.15735v2
- Date: Thu, 03 Oct 2024 08:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:57.798935
- Title: Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model
- Title(参考訳): 画像-映像拡散モデルにおける条件付き画像漏洩の同定と解法
- Authors: Min Zhao, Hongzhou Zhu, Chendong Xiang, Kaiwen Zheng, Chongxuan Li, Jun Zhu,
- Abstract要約: 拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
- 参考スコア(独自算出の注目度): 31.70050311326183
- License:
- Abstract: Diffusion models have obtained substantial progress in image-to-video generation. However, in this paper, we find that these models tend to generate videos with less motion than expected. We attribute this to the issue called conditional image leakage, where the image-to-video diffusion models (I2V-DMs) tend to over-rely on the conditional image at large time steps. We further address this challenge from both inference and training aspects. First, we propose to start the generation process from an earlier time step to avoid the unreliable large-time steps of I2V-DMs, as well as an initial noise distribution with optimal analytic expressions (Analytic-Init) by minimizing the KL divergence between it and the actual marginal distribution to bridge the training-inference gap. Second, we design a time-dependent noise distribution (TimeNoise) for the conditional image during training, applying higher noise levels at larger time steps to disrupt it and reduce the model's dependency on it. We validate these general strategies on various I2V-DMs on our collected open-domain image benchmark and the UCF101 dataset. Extensive results show that our methods outperform baselines by producing higher motion scores with lower errors while maintaining image alignment and temporal consistency, thereby yielding superior overall performance and enabling more accurate motion control. The project page: \url{https://cond-image-leak.github.io/}.
- Abstract(参考訳): 拡散モデルは画像から映像への生成に大きな進歩をもたらした。
しかし,本稿では,これらのモデルが期待よりも少ない動きでビデオを生成する傾向にあることがわかった。
本稿では,画像間拡散モデル (I2V-DM) が条件付き画像に大きく依存する傾向にある条件付き画像漏洩問題に起因する。
さらに、推論とトレーニングの両方の観点から、この課題に対処します。
まず, I2V-DMの信頼性の低い大規模ステップを回避するため, 生成過程を早期段階から開始し, 最適解析式 (Analytic-Init) を用いた初期雑音分布を学習・推論ギャップを埋めるために, KL の分散を最小化することを提案する。
第二に、トレーニング中の条件付き画像に対する時間依存ノイズ分布(TimeNoise)を設計し、より大きな時間ステップでより高いノイズレベルを適用して、それを破壊し、モデルへの依存を減らす。
収集したオープンドメイン画像ベンチマークとUCF101データセットを用いた各種I2V-DMの一般的な戦略を検証する。
その結果,画像のアライメントと時間的整合性を維持しつつ,高い動作スコアを低い誤差で生成し,総合的な性能を向上し,より正確な動作制御を可能にした。
プロジェクトページ: \url{https://cond-image-leak.github.io/}。
関連論文リスト
- TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models [94.24861019513462]
TRIPは画像間拡散パラダイムの新しいレシピである。
静的画像から派生した画像ノイズをピボットして、フレーム間の関係推論を共同でトリガーする。
WebVid-10M、DTDB、MSR-VTTデータセットに関する大規模な実験は、TRIPの有効性を示している。
論文 参考訳(メタデータ) (2024-03-25T17:59:40Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Tuning-Free Noise Rectification for High Fidelity Image-to-Video
Generation [23.81997037880116]
イメージ・ツー・ビデオ(I2V)生成タスクは常に、オープンドメインで高い忠実さを維持することに苦しむ。
いくつかの最近のI2Vフレームワークは、オープンドメインイメージの動的コンテンツを生成できるが、忠実さを維持できない。
本稿では,主流映像拡散モデルに適用可能な効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T09:57:47Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。