論文の概要: FlashI2V: Fourier-Guided Latent Shifting Prevents Conditional Image Leakage in Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2509.25187v1
- Date: Mon, 29 Sep 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.903092
- Title: FlashI2V: Fourier-Guided Latent Shifting Prevents Conditional Image Leakage in Image-to-Video Generation
- Title(参考訳): FlashI2V:Fluier-Guided Latent Shiftingは、画像とビデオの生成における条件付き画像漏洩を防ぐ
- Authors: Yunyang Ge, Xinhua Cheng, Chengshu Zhao, Xianyi He, Shenghai Yuan, Bin Lin, Bin Zhu, Li Yuan,
- Abstract要約: I2V(Image-to-Video)生成では、入力画像を第1フレーム条件としてビデオを生成する。
条件付き画像リークは、スローモーションや色の不整合などのパフォーマンス劣化問題を引き起こす。
本稿では,Fourier-Guided Latent Shifting I2Vについて述べる。
パラメータは1.3Bで、FlashI2VはVbench-I2Vで53.01のダイナミックスコアを獲得し、CogVideoX1.5-5B-I2VとWan2.1-I2V-14B-480Pを上回った。
- 参考スコア(独自算出の注目度): 41.86273464335121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Image-to-Video (I2V) generation, a video is created using an input image as the first-frame condition. Existing I2V methods concatenate the full information of the conditional image with noisy latents to achieve high fidelity. However, the denoisers in these methods tend to shortcut the conditional image, which is known as conditional image leakage, leading to performance degradation issues such as slow motion and color inconsistency. In this work, we further clarify that conditional image leakage leads to overfitting to in-domain data and decreases the performance in out-of-domain scenarios. Moreover, we introduce Fourier-Guided Latent Shifting I2V, named FlashI2V, to prevent conditional image leakage. Concretely, FlashI2V consists of: (1) Latent Shifting. We modify the source and target distributions of flow matching by subtracting the conditional image information from the noisy latents, thereby incorporating the condition implicitly. (2) Fourier Guidance. We use high-frequency magnitude features obtained by the Fourier Transform to accelerate convergence and enable the adjustment of detail levels in the generated video. Experimental results show that our method effectively overcomes conditional image leakage and achieves the best generalization and performance on out-of-domain data among various I2V paradigms. With only 1.3B parameters, FlashI2V achieves a dynamic degree score of 53.01 on Vbench-I2V, surpassing CogVideoX1.5-5B-I2V and Wan2.1-I2V-14B-480P. Github page: https://pku-yuangroup.github.io/FlashI2V/
- Abstract(参考訳): I2V(Image-to-Video)生成では、入力画像を第1フレーム条件としてビデオを生成する。
既存のI2V法は、条件付き画像の完全情報を雑音のある潜像と結合して高忠実度を実現する。
しかし, 条件画像リークと呼ばれる条件画像のショートカットは, スローモーションや色の不整合などの性能劣化問題を引き起こす傾向にある。
本研究では,条件付き画像リークがドメイン内データに過度に適合し,ドメイン外シナリオの性能が低下することを示す。
また,Fourier-Guided Latent Shifting I2V(FlashI2V)を導入し,条件付き画像漏洩を防止する。
具体的には、FlashI2Vは以下の通りである。
本研究では,条件画像情報をノイズのある潜伏者から抽出し,その条件を暗黙的に組み込むことにより,フローマッチングのソースとターゲット分布を変化させる。
(2)Fourier Guidance
フーリエ変換によって得られた高周波数大域特徴を用いて収束を加速し、生成したビデオのディテールレベルの調整を可能にする。
実験結果から, 条件付き画像リークを効果的に克服し, ドメイン外データに対して, 様々なI2Vパラダイムで最高の一般化と性能を実現することがわかった。
パラメータは1.3Bで、FlashI2VはVbench-I2Vで53.01のダイナミックスコアを獲得し、CogVideoX1.5-5B-I2VとWan2.1-I2V-14B-480Pを上回った。
Githubのページ:https://pku-yuangroup.github.io/FlashI2V/
関連論文リスト
- Enhancing Motion Dynamics of Image-to-Video Models via Adaptive Low-Pass Guidance [70.12690940725092]
アダプティブローパスガイダンス(ALG)は、よりダイナミックなビデオを生成するためのI2Vモデルサンプリング手順の簡単な修正である。
VBench-I2Vテストスイートでは、ALGはビデオ品質や画像の忠実度を大幅に低下させることなく、ダイナミック度の平均36%の改善を実現している。
論文 参考訳(メタデータ) (2025-06-10T05:23:46Z) - NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation [70.96827354717459]
拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。
本研究では,高相関・多彩な画像を生成するため,安定拡散を用いたノイズファインチューンNOFTモジュールを提案する。
論文 参考訳(メタデータ) (2025-05-18T05:09:47Z) - FrameBridge: Improving Image-to-Video Generation with Bridge Models [21.888786343816875]
拡散モデルは画像間(I2V)生成において顕著な進歩を遂げた。
彼らのノイズ・ツー・データ生成プロセスは、本質的にこのタスクと一致していないため、最適下合成の品質につながる可能性がある。
フレーム・ツー・フレーム生成過程をブリッジモデルに基づくデータ・ツー・データ生成プロセスでモデル化することにより、与えられた画像に含まれる情報を完全に活用することができる。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video
Synthesis [66.2611385251157]
拡散モデルはイメージ・ツー・イメージ(I2I)合成を変換し、現在はビデオに浸透している。
本稿では,空間条件と時間的光フロー手がかりを併用した一貫したV2V合成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-29T16:57:12Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。