論文の概要: VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning on Language-Video Foundation Models
- arxiv url: http://arxiv.org/abs/2311.00990v2
- Date: Mon, 14 Apr 2025 02:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:45:43.802109
- Title: VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning on Language-Video Foundation Models
- Title(参考訳): VideoDreamer:Language-Video FoundationモデルによるDen-Mixファインタニングによるカスタマイズされたマルチオブジェクトテキスト・ビデオ生成
- Authors: Hong Chen, Xin Wang, Guanning Zeng, Yipeng Zhang, Yuwei Zhou, Feilin Han, Yaofei Wu, Wenwu Zhu,
- Abstract要約: VideoDreamerは、カスタマイズされたマルチオブジェクトのテキスト・ツー・ビデオ生成のための新しいフレームワークである。
与えられた複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
- 参考スコア(独自算出の注目度): 43.46536102838717
- License:
- Abstract: Customized text-to-video generation aims to generate text-guided videos with user-given subjects, which has gained increasing attention. However, existing works are primarily limited to single-subject oriented text-to-video generation, leaving the more challenging problem of customized multi-subject generation unexplored. In this paper, we fill this gap and propose a novel VideoDreamer framework, which can generate temporally consistent text-guided videos that faithfully preserve the visual features of the given multiple subjects. Specifically, VideoDreamer adopts the pretrained Stable Diffusion with temporal modules as its base video generator, taking the power of the text-to-image model to generate diversified content. The video generator is further customized for multi-subjects, which leverages the proposed Disen-Mix Finetuning and Human-in-the-Loop Re-finetuning strategy, to tackle the attribute binding problem of multi-subject generation. Additionally, we present a disentangled motion customization strategy to finetune the temporal modules so that we can generate videos with both customized subjects and motions. To evaluate the performance of customized multi-subject text-to-video generation, we introduce the MultiStudioBench benchmark. Extensive experiments demonstrate the remarkable ability of VideoDreamer to generate videos with new content such as new events and backgrounds, tailored to the customized multiple subjects.
- Abstract(参考訳): カスタマイズされたテキスト・ツー・ビデオ・ジェネレーションは、ユーザを対象とするテキスト誘導ビデオを作成することを目的としており、注目を集めている。
しかし、既存の作品は、主にシングルオブジェクト指向のテキスト・ツー・ビデオ生成に限られており、カスタマイズされたマルチオブジェクト生成のより難しい問題は未解決のままである。
本稿では、このギャップを埋めて、与えられた複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成する、新しいVideoDreamerフレームワークを提案する。
具体的には、VideoDreamerは、時間的モジュールをベースビデオジェネレータとして、事前訓練された安定拡散を採用し、テキスト・ツー・イメージモデルのパワーを生かして、多様なコンテンツを生成する。
ビデオジェネレータは、マルチオブジェクトに対してさらにカスタマイズされ、提案したDisen-Mix FinetuningとHuman-in-the-Loop Refinetuning戦略を利用して、マルチオブジェクト生成の属性バインディング問題に取り組む。
さらに、時間的モジュールを微調整し、カスタマイズされた対象と動作の両方でビデオを生成するために、ゆがんだ動きのカスタマイズ戦略を提案する。
カスタマイズされたマルチオブジェクト・テキスト・ビデオ生成の性能を評価するために,MultiStudioBenchベンチマークを導入する。
大規模な実験は、ビデオDreamerが、新しいイベントや背景など、カスタマイズされた複数の主題に合わせて、新しいコンテンツでビデオを生成する素晴らしい能力を実証している。
関連論文リスト
- DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control [48.41743234012456]
DisenStudioは、複数のテーマをカスタマイズするためのテキスト誘導ビデオを生成する新しいフレームワークである。
DisenStudioは,空間的異方性を持つクロスアテンション機構を用いて,事前学習した拡散に基づくテキスト・ビデオ・モデルを強化する。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-05-21T13:44:55Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。