論文の概要: SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner
- arxiv url: http://arxiv.org/abs/2412.10533v1
- Date: Fri, 13 Dec 2024 20:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:55.177248
- Title: SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner
- Title(参考訳): SUGAR: ゼロショットマンナにおける被写体駆動ビデオのカスタマイズ
- Authors: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Nanxuan Zhao, Jing Shi, Tong Sun,
- Abstract要約: 我々は、主観的動画カスタマイズのためのゼロショット方式SUGARを提案する。
入力画像が与えられた場合、SUGARは被写体のビデオを生成し、任意の視覚属性で生成を調整できる。
- 参考スコア(独自算出の注目度): 46.75063691424628
- License:
- Abstract: We present SUGAR, a zero-shot method for subject-driven video customization. Given an input image, SUGAR is capable of generating videos for the subject contained in the image and aligning the generation with arbitrary visual attributes such as style and motion specified by user-input text. Unlike previous methods, which require test-time fine-tuning or fail to generate text-aligned videos, SUGAR achieves superior results without the need for extra cost at test-time. To enable zero-shot capability, we introduce a scalable pipeline to construct synthetic dataset which is specifically designed for subject-driven customization, leading to 2.5 millions of image-video-text triplets. Additionally, we propose several methods to enhance our model, including special attention designs, improved training strategies, and a refined sampling algorithm. Extensive experiments are conducted. Compared to previous methods, SUGAR achieves state-of-the-art results in identity preservation, video dynamics, and video-text alignment for subject-driven video customization, demonstrating the effectiveness of our proposed method.
- Abstract(参考訳): 我々は、主観的動画カスタマイズのためのゼロショット方式SUGARを提案する。
入力画像が与えられた場合、SUGARは画像に含まれる被写体のビデオを生成し、ユーザ入力テキストで指定されたスタイルや動きなどの任意の視覚属性で生成を調整できる。
テスト時の微調整やテキスト整列ビデオの生成に失敗する従来の方法とは異なり、SUGARはテスト時に余分なコストを要さずに優れた結果が得られる。
ゼロショット機能を実現するために,被験者主導のカスタマイズを特化して設計された合成データセットを構築するために,スケーラブルなパイプラインを導入する。
さらに, 特別注意設計, 訓練戦略の改善, 改良されたサンプリングアルゴリズムなど, モデルを強化するためのいくつかの手法を提案する。
大規模な実験が行われている。
従来の手法と比較して,SUGARは個人性保存,ビデオダイナミックス,ビデオテキストアライメントの最先端的な結果を実現し,提案手法の有効性を実証した。
関連論文リスト
- DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control [48.41743234012456]
DisenStudioは、複数のテーマをカスタマイズするためのテキスト誘導ビデオを生成する新しいフレームワークである。
DisenStudioは,空間的異方性を持つクロスアテンション機構を用いて,事前学習した拡散に基づくテキスト・ビデオ・モデルを強化する。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-05-21T13:44:55Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - NewMove: Customizing text-to-video models with novel motions [74.9442859239997]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。