論文の概要: Still-Moving: Customized Video Generation without Customized Video Data
- arxiv url: http://arxiv.org/abs/2407.08674v1
- Date: Thu, 11 Jul 2024 17:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:30:47.698462
- Title: Still-Moving: Customized Video Generation without Customized Video Data
- Title(参考訳): 動画データ無しで動画をカスタマイズできる「Still-Moving」
- Authors: Hila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri,
- Abstract要約: テキスト・トゥ・ビデオ(T2V)モデルをカスタマイズするための新しいフレームワークであるStill-Movingを紹介する。
このフレームワークは、ビデオモデルをテキスト・トゥ・イメージ(T2I)モデル上に構築する、著名なT2V設計に適用される。
私たちは、注入されたT2I層によって生成された機能を調整する軽量な$textitSpatial Adapters$をトレーニングします。
- 参考スコア(独自算出の注目度): 81.09302547183155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customizing text-to-image (T2I) models has seen tremendous progress recently, particularly in areas such as personalization, stylization, and conditional generation. However, expanding this progress to video generation is still in its infancy, primarily due to the lack of customized video data. In this work, we introduce Still-Moving, a novel generic framework for customizing a text-to-video (T2V) model, without requiring any customized video data. The framework applies to the prominent T2V design where the video model is built over a text-to-image (T2I) model (e.g., via inflation). We assume access to a customized version of the T2I model, trained only on still image data (e.g., using DreamBooth or StyleDrop). Naively plugging in the weights of the customized T2I model into the T2V model often leads to significant artifacts or insufficient adherence to the customization data. To overcome this issue, we train lightweight $\textit{Spatial Adapters}$ that adjust the features produced by the injected T2I layers. Importantly, our adapters are trained on $\textit{"frozen videos"}$ (i.e., repeated images), constructed from image samples generated by the customized T2I model. This training is facilitated by a novel $\textit{Motion Adapter}$ module, which allows us to train on such static videos while preserving the motion prior of the video model. At test time, we remove the Motion Adapter modules and leave in only the trained Spatial Adapters. This restores the motion prior of the T2V model while adhering to the spatial prior of the customized T2I model. We demonstrate the effectiveness of our approach on diverse tasks including personalized, stylized, and conditional generation. In all evaluated scenarios, our method seamlessly integrates the spatial prior of the customized T2I model with a motion prior supplied by the T2V model.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルのカスタマイズは、特にパーソナライズ、スタイリゼーション、条件生成といった分野において、近年大きな進歩を遂げている。
しかし、ビデオ生成へのこの進歩は、主にカスタマイズされたビデオデータがないために、まだ初期段階にある。
本研究では,テキスト・トゥ・ビデオ(T2V)モデルをカスタマイズするための新しい汎用フレームワークであるStill-Movingを紹介する。
このフレームワークは、ビデオモデルがテキスト・トゥ・イメージ(T2I)モデル(例えばインフレーション)上に構築される、著名なT2V設計に適用される。
私たちは、静止画像データ(例えばDreamBoothやStyleDropを使って)でのみトレーニングされた、カスタマイズされたバージョンのT2Iモデルへのアクセスを前提としています。
カスタマイズされたT2Iモデルの重みをT2Vモデルにネゴライズすることで、しばしば重要なアーティファクトやカスタマイズデータへの完全性に繋がる。
この問題を解決するために、注入されたT2I層によって生成された機能を調整する軽量な$\textit{Spatial Adapters}$をトレーニングします。
重要なことは、当社のアダプタは、カスタマイズされたT2Iモデルによって生成されたイメージサンプルから構築された、$\textit{"frozen video"}$(つまり、繰り返しイメージ)でトレーニングされています。
このトレーニングは、新しい$\textit{Motion Adapter}$モジュールによって促進されます。
テスト時には、Motion Adapterモジュールを削除し、トレーニングされた空間アダプタのみに残します。
これにより、T2Vモデルの前の動きを復元し、カスタマイズされたT2Iモデルの前の空間に付着する。
我々は,パーソナライズ,スタイル化,条件生成など多様なタスクに対するアプローチの有効性を実証する。
評価されたすべてのシナリオにおいて,提案手法は,T2Vモデルによって事前に提供される動きと,カスタマイズされたT2Iモデルの空間的先行をシームレスに統合する。
関連論文リスト
- Searching Priors Makes Text-to-Video Synthesis Better [16.314105189868588]
一般的なテキスト・ツー・ビデオ(T2V)生成プロセスを検索ベースで生成するパイプラインとして再構築する。
モデルトレーニングをスケールアップする代わりに、既存の動画を前向きのデータベースとして使用しています。
論文 参考訳(メタデータ) (2024-06-05T12:53:28Z) - VideoElevator: Elevating Video Generation Quality with Versatile
Text-to-Image Diffusion Models [94.25084162939488]
テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。
我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
論文 参考訳(メタデータ) (2024-03-08T16:44:54Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [48.56724784226513]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案するモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、様々な下流タスクへの容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。
T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。
提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-30T13:12:40Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。