論文の概要: Enhancing Motion Dynamics of Image-to-Video Models via Adaptive Low-Pass Guidance
- arxiv url: http://arxiv.org/abs/2506.08456v1
- Date: Tue, 10 Jun 2025 05:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.560227
- Title: Enhancing Motion Dynamics of Image-to-Video Models via Adaptive Low-Pass Guidance
- Title(参考訳): 適応型低解像度誘導による画像間映像モデルの運動ダイナミクスの強化
- Authors: June Suk Choi, Kyungmin Lee, Sihyun Yu, Yisol Choi, Jinwoo Shin, Kimin Lee,
- Abstract要約: アダプティブローパスガイダンス(ALG)は、よりダイナミックなビデオを生成するためのI2Vモデルサンプリング手順の簡単な修正である。
VBench-I2Vテストスイートでは、ALGはビデオ品質や画像の忠実度を大幅に低下させることなく、ダイナミック度の平均36%の改善を実現している。
- 参考スコア(独自算出の注目度): 70.12690940725092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-video (T2V) models have demonstrated strong capabilities in producing high-quality, dynamic videos. To improve the visual controllability, recent works have considered fine-tuning pre-trained T2V models to support image-to-video (I2V) generation. However, such adaptation frequently suppresses motion dynamics of generated outputs, resulting in more static videos compared to their T2V counterparts. In this work, we analyze this phenomenon and identify that it stems from the premature exposure to high-frequency details in the input image, which biases the sampling process toward a shortcut trajectory that overfits to the static appearance of the reference image. To address this, we propose adaptive low-pass guidance (ALG), a simple fix to the I2V model sampling procedure to generate more dynamic videos without compromising per-frame image quality. Specifically, ALG adaptively modulates the frequency content of the conditioning image by applying low-pass filtering at the early stage of denoising. Extensive experiments demonstrate that ALG significantly improves the temporal dynamics of generated videos, while preserving image fidelity and text alignment. Especially, under VBench-I2V test suite, ALG achieves an average improvement of 36% in dynamic degree without a significant drop in video quality or image fidelity.
- Abstract(参考訳): 最近のテキスト・ツー・ビデオ(T2V)モデルは、高品質でダイナミックなビデオを作成する上で強力な能力を示している。
視覚的制御性を改善するため、近年の研究では、イメージ・ツー・ビデオ(I2V)生成をサポートするために、微調整済みのT2Vモデルを検討している。
しかし、このような適応は生成された出力の運動力学を頻繁に抑制し、結果としてT2Vと比較してより静的なビデオが得られる。
本研究では,この現象を解析し,入力画像の高周波細部への早期露光に起因し,サンプリングプロセスが参照画像の静的な外観に過度に適合するショートカット軌道に偏っていることを同定する。
そこで本研究では,フレーム単位の画質を損なうことなく,よりダイナミックなビデオを生成するための,I2Vモデルサンプリング手順の簡単な修正である適応型ローパスガイダンス(ALG)を提案する。
特に、ALGは、デノナイジングの初期段階に低域フィルタを適用することにより、条件画像の周波数内容を適応的に変調する。
大規模な実験により、ALGは画像の忠実さとテキストアライメントを保ちながら、生成したビデオの時間的ダイナミクスを著しく改善することが示された。
特に、VBench-I2Vテストスイートでは、ALGはビデオ品質や画像の忠実度を著しく低下させることなく、ダイナミック度の平均36%の改善を実現している。
関連論文リスト
- Incorporating Flexible Image Conditioning into Text-to-Video Diffusion Models without Training [27.794381157153776]
フレキシブル・ビジュアル・コンディショニングによるTI2V生成のための統一型定式化を提案する。
我々は、任意の量の画像に対してT2V基礎モデルを条件付けることができるFlexTI2Vと呼ばれる革新的なトレーニングフリーアプローチを提案する。
本手法は,従来のトレーニング不要の画像条件付け手法を顕著なマージンで上回っている。
論文 参考訳(メタデータ) (2025-05-27T02:16:06Z) - Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T16:06:16Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。