論文の概要: Incorporating Flexible Image Conditioning into Text-to-Video Diffusion Models without Training
- arxiv url: http://arxiv.org/abs/2505.20629v1
- Date: Tue, 27 May 2025 02:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.348173
- Title: Incorporating Flexible Image Conditioning into Text-to-Video Diffusion Models without Training
- Title(参考訳): テキスト・ビデオ拡散モデルへのフレキシブルイメージコンディショニングの導入
- Authors: Bolin Lai, Sangmin Lee, Xu Cao, Xiang Li, James M. Rehg,
- Abstract要約: フレキシブル・ビジュアル・コンディショニングによるTI2V生成のための統一型定式化を提案する。
我々は、任意の量の画像に対してT2V基礎モデルを条件付けることができるFlexTI2Vと呼ばれる革新的なトレーニングフリーアプローチを提案する。
本手法は,従来のトレーニング不要の画像条件付け手法を顕著なマージンで上回っている。
- 参考スコア(独自算出の注目度): 27.794381157153776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-image-to-video (TI2V) generation is a critical problem for controllable video generation using both semantic and visual conditions. Most existing methods typically add visual conditions to text-to-video (T2V) foundation models by finetuning, which is costly in resources and only limited to a few predefined conditioning settings. To tackle this issue, we introduce a unified formulation for TI2V generation with flexible visual conditioning. Furthermore, we propose an innovative training-free approach, dubbed FlexTI2V, that can condition T2V foundation models on an arbitrary amount of images at arbitrary positions. Specifically, we firstly invert the condition images to noisy representation in a latent space. Then, in the denoising process of T2V models, our method uses a novel random patch swapping strategy to incorporate visual features into video representations through local image patches. To balance creativity and fidelity, we use a dynamic control mechanism to adjust the strength of visual conditioning to each video frame. Extensive experiments validate that our method surpasses previous training-free image conditioning methods by a notable margin. We also show more insights of our method by detailed ablation study and analysis.
- Abstract(参考訳): テキストイメージ・トゥ・ビデオ(TI2V)生成は,意味的条件と視覚的条件の両方を用いた制御可能なビデオ生成において重要な問題である。
既存のほとんどのメソッドは、細調整によってテキスト・ツー・ビデオ(T2V)基盤モデルに視覚的条件を加えるのが一般的であり、リソースのコストは高く、事前定義された条件設定に限られる。
この問題に対処するために、フレキシブル・ビジュアル・コンディショニングによるTI2V生成のための統一的な定式化を導入する。
さらに,任意の位置で任意の画像にT2V基礎モデルを条件付け可能な,FlexTI2Vと呼ばれる革新的なトレーニングフリーアプローチを提案する。
具体的には、まず条件画像から潜在空間の雑音表現に変換する。
そこで本手法では,T2Vモデルのデノベート過程において,局所的な画像パッチによる映像表現に視覚的特徴を組み込むために,新しいランダムパッチスワップ方式を用いる。
クリエイティビティと忠実さのバランスをとるために,動的制御機構を用いて映像フレームごとに視覚条件の強度を調整する。
大規模な実験により,本手法が従来のトレーニング不要の画像条件付け手法をはるかに上回っていることが確認された。
また,より詳細なアブレーション研究と分析により,本手法の知見をさらに高めている。
関連論文リスト
- Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis [14.980220974022982]
本稿では,T2IモデルとT2Vモデルを構成するトレーニング不要なカプセル化ビデオ合成装置であるEVSを紹介し,視覚的忠実度と動きの滑らかさを両立させる。
提案手法は,低品質ビデオフレームを改良するために,よく訓練された拡散ベースT2Iモデルを用いる。
また、一貫した運動力学を保証するためにT2Vバックボーンを用いる。
論文 参考訳(メタデータ) (2025-07-18T08:59:02Z) - Enhancing Motion Dynamics of Image-to-Video Models via Adaptive Low-Pass Guidance [70.12690940725092]
アダプティブローパスガイダンス(ALG)は、よりダイナミックなビデオを生成するためのI2Vモデルサンプリング手順の簡単な修正である。
VBench-I2Vテストスイートでは、ALGはビデオ品質や画像の忠実度を大幅に低下させることなく、ダイナミック度の平均36%の改善を実現している。
論文 参考訳(メタデータ) (2025-06-10T05:23:46Z) - Frame-wise Conditioning Adaptation for Fine-Tuning Diffusion Models in Text-to-Video Prediction [36.82594554832902]
テキストビデオ予測(英: text-video prediction、TVP)は、後続のビデオフレームを生成するモデルを必要とする下流のビデオ生成タスクである。
フレームワイドコンディショニング適応 (FCA) をラベル付けした適応型戦略を提案する。
我々は、初期フレームを余剰条件として組み込んだT2Vモデルを微調整するためにFCAを使用する。
論文 参考訳(メタデータ) (2025-03-17T09:06:21Z) - FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models [40.38379402600541]
TI2V-Zeroは、予め訓練されたテキスト・ツー・ビデオ(T2V)拡散モデルを、提供される画像に条件付けることができるゼロショット・チューニングフリーの手法である。
付加的な画像入力で映像生成を誘導するために,逆復調過程を変調する「繰り返しスライド」戦略を提案する。
TI2V-Zeroは、最新のオープンドメインTI2Vモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-25T03:21:11Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。