論文の概要: VideoStudio: Generating Consistent-Content and Multi-Scene Videos
- arxiv url: http://arxiv.org/abs/2401.01256v2
- Date: Mon, 16 Sep 2024 16:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:17:40.778207
- Title: VideoStudio: Generating Consistent-Content and Multi-Scene Videos
- Title(参考訳): VideoStudio: 一貫性のあるマルチシーンビデオを生成する
- Authors: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei,
- Abstract要約: VideoStudioは、一貫したコンテンツとマルチシーンのビデオ生成のためのフレームワークである。
VideoStudioはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoStudioは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
- 参考スコア(独自算出の注目度): 88.88118783892779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent innovations and breakthroughs in diffusion models have significantly expanded the possibilities of generating high-quality videos for the given prompts. Most existing works tackle the single-scene scenario with only one video event occurring in a single background. Extending to generate multi-scene videos nevertheless is not trivial and necessitates to nicely manage the logic in between while preserving the consistent visual appearance of key content across video scenes. In this paper, we propose a novel framework, namely VideoStudio, for consistent-content and multi-scene video generation. Technically, VideoStudio leverages Large Language Models (LLM) to convert the input prompt into comprehensive multi-scene script that benefits from the logical knowledge learnt by LLM. The script for each scene includes a prompt describing the event, the foreground/background entities, as well as camera movement. VideoStudio identifies the common entities throughout the script and asks LLM to detail each entity. The resultant entity description is then fed into a text-to-image model to generate a reference image for each entity. Finally, VideoStudio outputs a multi-scene video by generating each scene video via a diffusion process that takes the reference images, the descriptive prompt of the event and camera movement into account. The diffusion model incorporates the reference images as the condition and alignment to strengthen the content consistency of multi-scene videos. Extensive experiments demonstrate that VideoStudio outperforms the SOTA video generation models in terms of visual quality, content consistency, and user preference. Source code is available at \url{https://github.com/FuchenUSTC/VideoStudio}.
- Abstract(参考訳): 拡散モデルにおける最近の革新とブレークスルーは、与えられたプロンプトに対して高品質なビデオを生成する可能性を大幅に拡大した。
既存の作業の多くは、単一のバックグラウンドで1つのビデオイベントしか発生しない、ワンシーンシナリオに取り組みます。
それでもマルチシーンビデオを生成するのは簡単ではなく、ビデオシーン全体のキーコンテンツの一貫した視覚的外観を保ちながら、ロジックを適切に管理する必要がある。
本稿では,一貫したコンテンツとマルチシーンのビデオ生成のための新しいフレームワークであるVideoStudioを提案する。
技術的には、VideoStudioはLarge Language Models (LLM)を活用して、入力プロンプトをLLMが学習した論理的知識の恩恵を受ける包括的なマルチシーンスクリプトに変換する。
各シーンの脚本には、イベントを記述するプロンプト、フォアグラウンド/バックグラウンドエンティティ、カメラムーブメントが含まれる。
VideoStudioはスクリプト全体の共通エンティティを特定し、各エンティティの詳細をLCMに尋ねる。
結果のエンティティ記述は、各エンティティの参照画像を生成するために、テキスト・ツー・イメージモデルに入力される。
最後に、VideoStudioは、参照画像、イベントの記述的プロンプト、カメラの動きを考慮に入れた拡散プロセスを介して、各シーン映像を生成することで、マルチシーン映像を出力する。
拡散モデルは、参照画像を条件とアライメントとして組み込んで、マルチシーンビデオのコンテンツ一貫性を強化する。
大規模な実験により、VideoStudioは、視覚的品質、コンテンツ整合性、ユーザー嗜好の点で、SOTAビデオ生成モデルよりも優れていることが示された。
ソースコードは \url{https://github.com/FuchenUSTC/VideoStudio} で公開されている。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。