論文の概要: I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.16693v3
- Date: Tue, 14 May 2024 17:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 19:21:18.258657
- Title: I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models
- Title(参考訳): I2V-Adapter:拡散モデルのための一般画像から映像への適応器
- Authors: Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Pengfei Wan, Di Zhang, Yufan Liu, Weiming Hu, Zhengjun Zha, Haibin Huang, Chongyang Ma,
- Abstract要約: テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
- 参考スコア(独自算出の注目度): 80.32562822058924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image-to-video (I2V) generation aims to generate a coherent video that preserves the identity of the input image and semantically aligns with the input prompt. Existing methods typically augment pretrained text-to-video (T2V) models by either concatenating the image with noised video frames channel-wise before being fed into the model or injecting the image embedding produced by pretrained image encoders in cross-attention modules. However, the former approach often necessitates altering the fundamental weights of pretrained T2V models, thus restricting the model's compatibility within the open-source communities and disrupting the model's prior knowledge. Meanwhile, the latter typically fails to preserve the identity of the input image. We present I2V-Adapter to overcome such limitations. I2V-Adapter adeptly propagates the unnoised input image to subsequent noised frames through a cross-frame attention mechanism, maintaining the identity of the input image without any changes to the pretrained T2V model. Notably, I2V-Adapter only introduces a few trainable parameters, significantly alleviating the training cost and also ensures compatibility with existing community-driven personalized models and control tools. Moreover, we propose a novel Frame Similarity Prior to balance the motion amplitude and the stability of generated videos through two adjustable control coefficients. Our experimental results demonstrate that I2V-Adapter is capable of producing high-quality videos. This performance, coupled with its agility and adaptability, represents a substantial advancement in the field of I2V, particularly for personalized and controllable applications.
- Abstract(参考訳): テキスト誘導画像合成(I2V)は、入力画像の同一性を保ち、入力プロンプトと意味的に整合するコヒーレントなビデオを生成することを目的としている。
既存の方法では、トレーニング済みのテキスト・トゥ・ビデオ(T2V)モデルを拡張して、モデルに入力される前に、画像とノイズ付きビデオフレームをチャンネルワイズに結合するか、あるいは、トレーニング済みの画像エンコーダによって生成された画像埋め込みを、クロスアテンションモジュールに注入する。
しかしながら、前者のアプローチでは、事前訓練されたT2Vモデルの基本的な重みを変える必要がしばしばあり、これにより、オープンソースコミュニティ内でのモデルの互換性が制限され、モデルの事前の知識が破壊される。
一方、後者は通常、入力画像のアイデンティティを保持するのに失敗する。
このような制限を克服するために、I2V-Adapterを提案する。
I2V-Adapterは、予め訓練されたT2Vモデルを変更することなく、入力画像の同一性を保ちながら、後続のノイズ付きフレームに適応的に伝播する。
特に、I2V-Adapterはトレーニング可能なパラメータをいくつか導入するだけで、トレーニングコストを大幅に軽減し、既存のコミュニティ主導のパーソナライズされたモデルとコントロールツールとの互換性を確保する。
さらに,2つの調整可能な制御係数による動画の動作振幅と安定性のバランスをとるために,新しいフレーム類似性を提案する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
このパフォーマンスと、その俊敏性と適応性は、特にパーソナライズされ、制御可能なアプリケーションにおいて、I2V分野の大幅な進歩を示している。
関連論文リスト
- PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
我々は、T2Vモデルにより合成されたビデオを直接監視する、textbfPersonalVideoと呼ばれる新しいフレームワークを提案する。
本手法は,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する上での優位性であり,従来手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。
本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。
本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video [15.952896909797728]
ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れている。
最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。
画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:41:20Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。