論文の概要: DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control
- arxiv url: http://arxiv.org/abs/2405.12796v1
- Date: Tue, 21 May 2024 13:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:10:09.369834
- Title: DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control
- Title(参考訳): DisenStudio:分散空間制御によるカスタマイズ多目的テキスト・ビデオ生成
- Authors: Hong Chen, Xin Wang, Yipeng Zhang, Yuwei Zhou, Zeyang Zhang, Siao Tang, Wenwu Zhu,
- Abstract要約: DisenStudioは、複数のテーマをカスタマイズするためのテキスト誘導ビデオを生成する新しいフレームワークである。
DisenStudioは,空間的異方性を持つクロスアテンション機構を用いて,事前学習した拡散に基づくテキスト・ビデオ・モデルを強化する。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 48.41743234012456
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating customized content in videos has received increasing attention recently. However, existing works primarily focus on customized text-to-video generation for single subject, suffering from subject-missing and attribute-binding problems when the video is expected to contain multiple subjects. Furthermore, existing models struggle to assign the desired actions to the corresponding subjects (action-binding problem), failing to achieve satisfactory multi-subject generation performance. To tackle the problems, in this paper, we propose DisenStudio, a novel framework that can generate text-guided videos for customized multiple subjects, given few images for each subject. Specifically, DisenStudio enhances a pretrained diffusion-based text-to-video model with our proposed spatial-disentangled cross-attention mechanism to associate each subject with the desired action. Then the model is customized for the multiple subjects with the proposed motion-preserved disentangled finetuning, which involves three tuning strategies: multi-subject co-occurrence tuning, masked single-subject tuning, and multi-subject motion-preserved tuning. The first two strategies guarantee the subject occurrence and preserve their visual attributes, and the third strategy helps the model maintain the temporal motion-generation ability when finetuning on static images. We conduct extensive experiments to demonstrate our proposed DisenStudio significantly outperforms existing methods in various metrics. Additionally, we show that DisenStudio can be used as a powerful tool for various controllable generation applications.
- Abstract(参考訳): ビデオでカスタマイズされたコンテンツを生成することは、最近注目を集めている。
しかし、既存の研究は、主に1つの主題に対するカスタマイズされたテキスト・ツー・ビデオ生成に焦点を当てており、ビデオが複数の主題を含むと予想される場合、主題の欠落や属性バインディングの問題に悩まされている。
さらに、既存のモデルでは、要求されたアクションを対応する主題(アクション結合問題)に割り当てるのに苦労し、良好なマルチオブジェクト生成性能を達成できなかった。
そこで本稿では,複数の主題をカスタマイズしたテキスト誘導ビデオを生成するための新しいフレームワークであるDisenStudioを提案する。
具体的には、DistenStudioは、予め訓練された拡散に基づくテキスト・ツー・ビデオモデルを拡張し、提案した空間的異方性(空間的異方性)のクロスアテンション機構により、各被験者を所望のアクションに関連付ける。
次に,多目的共起チューニング,仮面単体チューニング,多目的運動保存チューニングという3つのチューニング戦略を含む,動作保存型遠絡微調整を提案する複数の対象に対して,モデルをカスタマイズする。
最初の2つの戦略は、被写体の発生を保証し、その視覚特性を保ち、第3の戦略は、静的な画像を微調整する際の時間運動生成能力をモデルが維持するのに役立つ。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
さらに、DisenStudioは様々な制御可能な生成アプリケーションのための強力なツールとして利用できることを示す。
関連論文リスト
- CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities [56.5742116979914]
CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。
動作生成においては,VDMは早期に映像の動きを回復する傾向にあり,後期では被写体の詳細の回復に焦点をあてる傾向が見られた。
論文 参考訳(メタデータ) (2024-08-23T17:26:06Z) - AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation [41.990464968024845]
インタラクティブな画像を生成するためのAutoStudioという,トレーニング不要なマルチエージェントフレームワークを提案する。
AutoStudioは、対話を処理するために大きな言語モデル(LLM)に基づく3つのエージェントと、高品質な画像を生成するための安定した拡散(SD)ベースのエージェントを使用している。
パブリックなCMIGBenchベンチマークと人的評価の実験は、AutoStudioが複数のターンにわたる複数オブジェクトの一貫性を良好に維持していることを示している。
論文 参考訳(メタデータ) (2024-06-03T14:51:24Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。