論文の概要: TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.16306v1
- Date: Thu, 25 Apr 2024 03:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:58:12.958092
- Title: TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models
- Title(参考訳): TI2V-Zero:テキスト・ビデオ拡散モデルのためのゼロショット画像コンディショニング
- Authors: Haomiao Ni, Bernhard Egger, Suhas Lohit, Anoop Cherian, Ye Wang, Toshiaki Koike-Akino, Sharon X. Huang, Tim K. Marks,
- Abstract要約: TI2V-Zeroは、予め訓練されたテキスト・ツー・ビデオ(T2V)拡散モデルを、提供される画像に条件付けることができるゼロショット・チューニングフリーの手法である。
付加的な画像入力で映像生成を誘導するために,逆復調過程を変調する「繰り返しスライド」戦略を提案する。
TI2V-Zeroは、最新のオープンドメインTI2Vモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 40.38379402600541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-conditioned image-to-video generation (TI2V) aims to synthesize a realistic video starting from a given image (e.g., a woman's photo) and a text description (e.g., "a woman is drinking water."). Existing TI2V frameworks often require costly training on video-text datasets and specific model designs for text and image conditioning. In this paper, we propose TI2V-Zero, a zero-shot, tuning-free method that empowers a pretrained text-to-video (T2V) diffusion model to be conditioned on a provided image, enabling TI2V generation without any optimization, fine-tuning, or introducing external modules. Our approach leverages a pretrained T2V diffusion foundation model as the generative prior. To guide video generation with the additional image input, we propose a "repeat-and-slide" strategy that modulates the reverse denoising process, allowing the frozen diffusion model to synthesize a video frame-by-frame starting from the provided image. To ensure temporal continuity, we employ a DDPM inversion strategy to initialize Gaussian noise for each newly synthesized frame and a resampling technique to help preserve visual details. We conduct comprehensive experiments on both domain-specific and open-domain datasets, where TI2V-Zero consistently outperforms a recent open-domain TI2V model. Furthermore, we show that TI2V-Zero can seamlessly extend to other tasks such as video infilling and prediction when provided with more images. Its autoregressive design also supports long video generation.
- Abstract(参考訳): テキスト条件付き画像合成(TI2V)は、所定の画像(例:女性の写真)とテキスト記述(例:女性が水を飲む)から始まる現実的な映像を合成することを目的としている。
既存のTI2Vフレームワークでは、ビデオテキストデータセットやテキストや画像のコンディショニングのための特定のモデル設計のトレーニングに費用がかかることが多い。
本稿では, TI2V-Zeroを提案する。TI2V-Zeroは, 予め訓練したテキスト・ツー・ビデオ(T2V)拡散モデルに対して, 最適化, 微調整, 外部モジュールの導入なしに, TI2V生成を可能にするゼロショット・チューニングフリーな手法である。
提案手法は, 事前学習したT2V拡散基盤モデルを生成前のモデルとして活用する。
追加画像入力で映像生成を誘導するため, 逆復調過程を変調し, 凍結拡散モデルにより, 提供される画像からフレーム別に映像フレームを合成する「繰り返しスライド」戦略を提案する。
時間的連続性を確保するため,新たに合成したフレーム毎にガウス雑音を初期化するためのDDPMインバージョン戦略と,視覚的詳細を保存するための再サンプリング手法を用いる。
TI2V-Zeroは、最新のオープンドメインTI2Vモデルよりも一貫して優れています。
さらに、TI2V-Zeroは、より多くの画像が提供されると、ビデオの埋め込みや予測といった他のタスクにシームレスに拡張できることを示す。
オートレグレッシブデザインは、長いビデオ生成もサポートしている。
関連論文リスト
- FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。
本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。
本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - HARIVO: Harnessing Text-to-Image Models for Video Generation [45.63338167699105]
本稿では,事前学習されたテキスト・ツー・イメージ(T2I)モデルから拡散に基づく映像モデルを作成する手法を提案する。
鍵となる革新は、時間的滑らか性のための新しい損失関数と緩和勾配サンプリング技術である。
凍結したStableDiffusionモデルに基づいて構築され、トレーニングプロセスを単純化し、ControlNetやDreamBoothといった市販モデルとのシームレスな統合を可能にします。
論文 参考訳(メタデータ) (2024-10-10T09:47:39Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation [64.77240137998862]
MicroCinemaは高品質でコヒーレントなテキスト・ビデオ生成のためのフレームワークである。
本稿では,テキスト・ツー・ビデオ生成と画像・テキスト・ツー・ビデオ生成という2段階のプロセスに分割するDivide-and-Conquer戦略を提案する。
MSR-VTTではUCF-101では342.86、MSR-VTTでは377.40のSOTAゼロショットFVDを達成した。
論文 参考訳(メタデータ) (2023-11-30T18:59:30Z) - VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。
T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。
提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-30T13:12:40Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。