論文の概要: DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control
- arxiv url: http://arxiv.org/abs/2405.12796v1
- Date: Tue, 21 May 2024 13:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:10:09.369834
- Title: DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control
- Title(参考訳): DisenStudio:分散空間制御によるカスタマイズ多目的テキスト・ビデオ生成
- Authors: Hong Chen, Xin Wang, Yipeng Zhang, Yuwei Zhou, Zeyang Zhang, Siao Tang, Wenwu Zhu,
- Abstract要約: DisenStudioは、複数のテーマをカスタマイズするためのテキスト誘導ビデオを生成する新しいフレームワークである。
DisenStudioは,空間的異方性を持つクロスアテンション機構を用いて,事前学習した拡散に基づくテキスト・ビデオ・モデルを強化する。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 48.41743234012456
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating customized content in videos has received increasing attention recently. However, existing works primarily focus on customized text-to-video generation for single subject, suffering from subject-missing and attribute-binding problems when the video is expected to contain multiple subjects. Furthermore, existing models struggle to assign the desired actions to the corresponding subjects (action-binding problem), failing to achieve satisfactory multi-subject generation performance. To tackle the problems, in this paper, we propose DisenStudio, a novel framework that can generate text-guided videos for customized multiple subjects, given few images for each subject. Specifically, DisenStudio enhances a pretrained diffusion-based text-to-video model with our proposed spatial-disentangled cross-attention mechanism to associate each subject with the desired action. Then the model is customized for the multiple subjects with the proposed motion-preserved disentangled finetuning, which involves three tuning strategies: multi-subject co-occurrence tuning, masked single-subject tuning, and multi-subject motion-preserved tuning. The first two strategies guarantee the subject occurrence and preserve their visual attributes, and the third strategy helps the model maintain the temporal motion-generation ability when finetuning on static images. We conduct extensive experiments to demonstrate our proposed DisenStudio significantly outperforms existing methods in various metrics. Additionally, we show that DisenStudio can be used as a powerful tool for various controllable generation applications.
- Abstract(参考訳): ビデオでカスタマイズされたコンテンツを生成することは、最近注目を集めている。
しかし、既存の研究は、主に1つの主題に対するカスタマイズされたテキスト・ツー・ビデオ生成に焦点を当てており、ビデオが複数の主題を含むと予想される場合、主題の欠落や属性バインディングの問題に悩まされている。
さらに、既存のモデルでは、要求されたアクションを対応する主題(アクション結合問題)に割り当てるのに苦労し、良好なマルチオブジェクト生成性能を達成できなかった。
そこで本稿では,複数の主題をカスタマイズしたテキスト誘導ビデオを生成するための新しいフレームワークであるDisenStudioを提案する。
具体的には、DistenStudioは、予め訓練された拡散に基づくテキスト・ツー・ビデオモデルを拡張し、提案した空間的異方性(空間的異方性)のクロスアテンション機構により、各被験者を所望のアクションに関連付ける。
次に,多目的共起チューニング,仮面単体チューニング,多目的運動保存チューニングという3つのチューニング戦略を含む,動作保存型遠絡微調整を提案する複数の対象に対して,モデルをカスタマイズする。
最初の2つの戦略は、被写体の発生を保証し、その視覚特性を保ち、第3の戦略は、静的な画像を微調整する際の時間運動生成能力をモデルが維持するのに役立つ。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
さらに、DisenStudioは様々な制御可能な生成アプリケーションのための強力なツールとして利用できることを示す。
関連論文リスト
- Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner [46.75063691424628]
我々は、主観的動画カスタマイズのためのゼロショット方式SUGARを提案する。
入力画像が与えられた場合、SUGARは被写体のビデオを生成し、任意の視覚属性で生成を調整できる。
論文 参考訳(メタデータ) (2024-12-13T20:01:51Z) - CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities [56.5742116979914]
CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。
動作生成では,VDMが早期に映像の動きを回復する傾向が見られた。
復調の後期では、特定対象の外観詳細を修復するために、このモジュールを復元する。
論文 参考訳(メタデータ) (2024-08-23T17:26:06Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。