論文の概要: Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2212.11565v1
- Date: Thu, 22 Dec 2022 09:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 14:44:00.781687
- Title: Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation
- Title(参考訳): Tune-A-Video:テキスト・ビデオ生成のための画像拡散モデルのワンショットチューニング
- Authors: Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Weixian Lei, Yuchao Gu, Wynne
Hsu, Ying Shan, Xiaohu Qie, Mike Zheng Shou
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
- 参考スコア(独自算出の注目度): 31.882356164068753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To reproduce the success of text-to-image (T2I) generation, recent works in
text-to-video (T2V) generation employ large-scale text-video dataset for
fine-tuning. However, such paradigm is computationally expensive. Humans have
the amazing ability to learn new visual concepts from just one single exemplar.
We hereby study a new T2V generation problem$\unicode{x2014}$One-Shot Video
Generation, where only a single text-video pair is presented for training an
open-domain T2V generator. Intuitively, we propose to adapt the T2I diffusion
model pretrained on massive image data for T2V generation. We make two key
observations: 1) T2I models are able to generate images that align well with
the verb terms; 2) extending T2I models to generate multiple images
concurrently exhibits surprisingly good content consistency. To further learn
continuous motion, we propose Tune-A-Video with a tailored Sparse-Causal
Attention, which generates videos from text prompts via an efficient one-shot
tuning of pretrained T2I diffusion models. Tune-A-Video is capable of producing
temporally-coherent videos over various applications such as change of subject
or background, attribute editing, style transfer, demonstrating the versatility
and effectiveness of our method.
- Abstract(参考訳): テキスト・ツー・イメージ(t2i)生成の成功を再現するために、テキスト・ツー・ビデオ(t2v)生成における最近の作品は、微調整のための大規模テキスト・ビデオ・データセットを採用している。
しかし、そのようなパラダイムは計算コストが高い。
人間はたった一つの例から新しい視覚概念を学ぶ素晴らしい能力を持っている。
ここでは、オープンドメインT2Vジェネレータをトレーニングするために、単一のテキストビデオペアのみを提示する、新しいT2V生成問題$\unicode{x2014}$One-Shot Video Generationを研究する。
直感的には、T2V生成のための大量の画像データに基づいて事前訓練されたT2I拡散モデルを適用することを提案する。
2つの重要な観察を行いました
1) T2Iモデルは、動詞用語とよく一致した画像を生成することができる。
2) T2Iモデルを複数の画像を生成するように拡張すると、驚くほど良質なコンテント一貫性が得られる。
さらに連続的な動きを学習するために,事前学習したT2I拡散モデルの効率的なワンショットチューニングによりテキストプロンプトから映像を生成するSparse-Causal Attentionを用いたTune-A-Videoを提案する。
tune-a-videoは、主題や背景の変化、属性編集、スタイル転送、汎用性と有効性を示すなど、さまざまなアプリケーションで時間的に一貫性のあるビデオを生成することができる。
関連論文リスト
- TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation [22.782099757385804]
TIP-I2Vは、ユーザが提供するテキストと画像プロンプトの大規模なデータセットとしては初めてである。
我々は、5つの最先端画像からビデオまでのモデルから、対応する生成されたビデオを提供する。
論文 参考訳(メタデータ) (2024-11-05T18:52:43Z) - Still-Moving: Customized Video Generation without Customized Video Data [81.09302547183155]
テキスト・トゥ・ビデオ(T2V)モデルをカスタマイズするための新しいフレームワークであるStill-Movingを紹介する。
このフレームワークは、ビデオモデルをテキスト・トゥ・イメージ(T2I)モデル上に構築する、著名なT2V設計に適用される。
私たちは、注入されたT2I層によって生成された機能を調整する軽量な$textitSpatial Adapters$をトレーニングします。
論文 参考訳(メタデータ) (2024-07-11T17:06:53Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - VideoElevator: Elevating Video Generation Quality with Versatile
Text-to-Image Diffusion Models [94.25084162939488]
テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。
我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
論文 参考訳(メタデータ) (2024-03-08T16:44:54Z) - VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。
T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。
提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-30T13:12:40Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。