論文の概要: VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning
- arxiv url: http://arxiv.org/abs/2311.00990v1
- Date: Thu, 2 Nov 2023 04:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:53:06.360240
- Title: VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning
- Title(参考訳): videodreamer:disen-mixの微調整によるマルチサブジェクトのテキスト対ビデオ生成
- Authors: Hong Chen, Xin Wang, Guanning Zeng, Yipeng Zhang, Yuwei Zhou, Feilin
Han, Wenwu Zhu
- Abstract要約: VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
- 参考スコア(独自算出の注目度): 47.61090084143284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Customized text-to-video generation aims to generate text-guided videos with
customized user-given subjects, which has gained increasing attention recently.
However, existing works are primarily limited to generating videos for a single
subject, leaving the more challenging problem of customized multi-subject
text-to-video generation largely unexplored. In this paper, we fill this gap
and propose a novel VideoDreamer framework. VideoDreamer can generate
temporally consistent text-guided videos that faithfully preserve the visual
features of the given multiple subjects. Specifically, VideoDreamer leverages
the pretrained Stable Diffusion with latent-code motion dynamics and temporal
cross-frame attention as the base video generator. The video generator is
further customized for the given multiple subjects by the proposed Disen-Mix
Finetuning and Human-in-the-Loop Re-finetuning strategy, which can tackle the
attribute binding problem of multi-subject generation. We also introduce
MultiStudioBench, a benchmark for evaluating customized multi-subject
text-to-video generation models. Extensive experiments demonstrate the
remarkable ability of VideoDreamer to generate videos with new content such as
new events and backgrounds, tailored to the customized multiple subjects. Our
project page is available at https://videodreamer23.github.io/.
- Abstract(参考訳): カスタマイズされたテキスト対ビデオ生成は、ユーザー登録対象をカスタマイズしたテキストガイド付きビデオを生成することを目的としている。
しかし、既存の作品は主に1つの主題のためにビデオを生成することに限られており、より難しい問題であるマルチサブジェクトのテキスト対ビデオ生成のカスタマイズは、ほとんど未解決である。
本稿では,このギャップを埋め,新しいVideoDreamerフレームワークを提案する。
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
特にvideodreamerは、事前訓練された安定拡散と潜在コード運動ダイナミクスと時間的フレーム間注意を基本ビデオジェネレータとして活用している。
マルチサブジェクト生成の属性結合問題に対処できるディゼンミックス微調整とヒューマン・イン・ザ・ループ再微調整戦略により、与えられた複数の被験者に対してさらにカスタマイズされる。
また,マルチサブジェクトのテキスト対ビデオ生成モデルを評価するベンチマークであるmultistudiobenchについても紹介する。
大規模な実験は、ビデオDreamerが、新しいイベントや背景など、カスタマイズされた複数の主題に合わせて、新しいコンテンツでビデオを生成する素晴らしい能力を実証している。
プロジェクトページはhttps://videodreamer23.github.io/で閲覧できます。
関連論文リスト
- DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control [48.41743234012456]
DisenStudioは、複数のテーマをカスタマイズするためのテキスト誘導ビデオを生成する新しいフレームワークである。
DisenStudioは,空間的異方性を持つクロスアテンション機構を用いて,事前学習した拡散に基づくテキスト・ビデオ・モデルを強化する。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-05-21T13:44:55Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。