論文の概要: Incorporating Flexible Image Conditioning into Text-to-Video Diffusion Models without Training
- arxiv url: http://arxiv.org/abs/2505.20629v1
- Date: Tue, 27 May 2025 02:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.348173
- Title: Incorporating Flexible Image Conditioning into Text-to-Video Diffusion Models without Training
- Title(参考訳): テキスト・ビデオ拡散モデルへのフレキシブルイメージコンディショニングの導入
- Authors: Bolin Lai, Sangmin Lee, Xu Cao, Xiang Li, James M. Rehg,
- Abstract要約: フレキシブル・ビジュアル・コンディショニングによるTI2V生成のための統一型定式化を提案する。
我々は、任意の量の画像に対してT2V基礎モデルを条件付けることができるFlexTI2Vと呼ばれる革新的なトレーニングフリーアプローチを提案する。
本手法は,従来のトレーニング不要の画像条件付け手法を顕著なマージンで上回っている。
- 参考スコア(独自算出の注目度): 27.794381157153776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-image-to-video (TI2V) generation is a critical problem for controllable video generation using both semantic and visual conditions. Most existing methods typically add visual conditions to text-to-video (T2V) foundation models by finetuning, which is costly in resources and only limited to a few predefined conditioning settings. To tackle this issue, we introduce a unified formulation for TI2V generation with flexible visual conditioning. Furthermore, we propose an innovative training-free approach, dubbed FlexTI2V, that can condition T2V foundation models on an arbitrary amount of images at arbitrary positions. Specifically, we firstly invert the condition images to noisy representation in a latent space. Then, in the denoising process of T2V models, our method uses a novel random patch swapping strategy to incorporate visual features into video representations through local image patches. To balance creativity and fidelity, we use a dynamic control mechanism to adjust the strength of visual conditioning to each video frame. Extensive experiments validate that our method surpasses previous training-free image conditioning methods by a notable margin. We also show more insights of our method by detailed ablation study and analysis.
- Abstract(参考訳): テキストイメージ・トゥ・ビデオ(TI2V)生成は,意味的条件と視覚的条件の両方を用いた制御可能なビデオ生成において重要な問題である。
既存のほとんどのメソッドは、細調整によってテキスト・ツー・ビデオ(T2V)基盤モデルに視覚的条件を加えるのが一般的であり、リソースのコストは高く、事前定義された条件設定に限られる。
この問題に対処するために、フレキシブル・ビジュアル・コンディショニングによるTI2V生成のための統一的な定式化を導入する。
さらに,任意の位置で任意の画像にT2V基礎モデルを条件付け可能な,FlexTI2Vと呼ばれる革新的なトレーニングフリーアプローチを提案する。
具体的には、まず条件画像から潜在空間の雑音表現に変換する。
そこで本手法では,T2Vモデルのデノベート過程において,局所的な画像パッチによる映像表現に視覚的特徴を組み込むために,新しいランダムパッチスワップ方式を用いる。
クリエイティビティと忠実さのバランスをとるために,動的制御機構を用いて映像フレームごとに視覚条件の強度を調整する。
大規模な実験により,本手法が従来のトレーニング不要の画像条件付け手法をはるかに上回っていることが確認された。
また,より詳細なアブレーション研究と分析により,本手法の知見をさらに高めている。
関連論文リスト
- Frame-wise Conditioning Adaptation for Fine-Tuning Diffusion Models in Text-to-Video Prediction [36.82594554832902]
テキストビデオ予測(英: text-video prediction、TVP)は、後続のビデオフレームを生成するモデルを必要とする下流のビデオ生成タスクである。
フレームワイドコンディショニング適応 (FCA) をラベル付けした適応型戦略を提案する。
我々は、初期フレームを余剰条件として組み込んだT2Vモデルを微調整するためにFCAを使用する。
論文 参考訳(メタデータ) (2025-03-17T09:06:21Z) - FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models [40.38379402600541]
TI2V-Zeroは、予め訓練されたテキスト・ツー・ビデオ(T2V)拡散モデルを、提供される画像に条件付けることができるゼロショット・チューニングフリーの手法である。
付加的な画像入力で映像生成を誘導するために,逆復調過程を変調する「繰り返しスライド」戦略を提案する。
TI2V-Zeroは、最新のオープンドメインTI2Vモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-25T03:21:11Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。