論文の概要: CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects
- arxiv url: http://arxiv.org/abs/2401.09962v1
- Date: Thu, 18 Jan 2024 13:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:33:05.564474
- Title: CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects
- Title(参考訳): customvideo: 複数の主題によるテキスト対ビデオ生成のカスタマイズ
- Authors: Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo
Li
- Abstract要約: カスタマイズされたテキスト・ツー・ビデオ生成は、テキストプロンプトと主題参照によってガイドされる高品質なビデオを生成することを目的としている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
- 参考スコア(独自算出の注目度): 70.72471396940145
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Customized text-to-video generation aims to generate high-quality videos
guided by text prompts and subject references. Current approaches designed for
single subjects suffer from tackling multiple subjects, which is a more
challenging and practical scenario. In this work, we aim to promote
multi-subject guided text-to-video customization. We propose CustomVideo, a
novel framework that can generate identity-preserving videos with the guidance
of multiple subjects. To be specific, firstly, we encourage the co-occurrence
of multiple subjects via composing them in a single image. Further, upon a
basic text-to-video diffusion model, we design a simple yet effective attention
control strategy to disentangle different subjects in the latent space of
diffusion model. Moreover, to help the model focus on the specific object area,
we segment the object from given reference images and provide a corresponding
object mask for attention learning. Also, we collect a multi-subject
text-to-video generation dataset as a comprehensive benchmark, with 69
individual subjects and 57 meaningful pairs. Extensive qualitative,
quantitative, and user study results demonstrate the superiority of our method,
compared with the previous state-of-the-art approaches.
- Abstract(参考訳): カスタマイズされたテキストからビデオへの生成は、テキストプロンプトと主題参照による高品質なビデオの生成を目的としている。
単一被験者向けに設計された現在のアプローチは、複数の課題に取り組むのに苦しむ。
本研究は,マルチサブジェクトのテキストからビデオへのカスタマイズを促進することを目的とする。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
まず,複数の被験者の共起を一つの画像にまとめることによって促進する。
さらに,基本的テキスト・ビデオ拡散モデルに基づいて,潜時空間の拡散モデルにおいて,異なる被写体をアンタングルする簡易かつ効果的な注意制御戦略を設計する。
さらに、モデルが特定の対象領域に焦点を合わせるのを助けるために、与えられた参照画像から対象を分割し、注意学習のための対応するオブジェクトマスクを提供する。
また,69名の被験者と57名の有意義なペアからなる総合ベンチマークとして,マルチサブジェクトテキスト対ビデオ生成データセットを収集した。
定性的,定量的,ユーザスタディの結果は,従来の最先端手法と比較して,本手法の優位性を示している。
関連論文リスト
- One-Shot Learning Meets Depth Diffusion in Multi-Object Videos [0.0]
本稿では,一対のテキスト・ビデオから一対のコヒーレント・多様な映像を生成可能な,新しい深度条件付き手法を提案する。
提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。
推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。
論文 参考訳(メタデータ) (2024-08-29T16:58:10Z) - DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control [48.41743234012456]
DisenStudioは、複数のテーマをカスタマイズするためのテキスト誘導ビデオを生成する新しいフレームワークである。
DisenStudioは,空間的異方性を持つクロスアテンション機構を用いて,事前学習した拡散に基づくテキスト・ビデオ・モデルを強化する。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-05-21T13:44:55Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。