論文の概要: VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
- arxiv url: http://arxiv.org/abs/2309.15091v2
- Date: Fri, 12 Jul 2024 18:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 04:48:58.709447
- Title: VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
- Title(参考訳): VideoDirectorGPT:LLM誘導計画による連続マルチシーン映像生成
- Authors: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal,
- Abstract要約: VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
- 参考スコア(独自算出の注目度): 62.51232333352754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-video (T2V) generation methods have seen significant advancements. However, the majority of these works focus on producing short video clips of a single event (i.e., single-scene videos). Meanwhile, recent large language models (LLMs) have demonstrated their capability in generating layouts and programs to control downstream visual modules. This prompts an important question: can we leverage the knowledge embedded in these LLMs for temporally consistent long video generation? In this paper, we propose VideoDirectorGPT, a novel framework for consistent multi-scene video generation that uses the knowledge of LLMs for video content planning and grounded video generation. Specifically, given a single text prompt, we first ask our video planner LLM (GPT-4) to expand it into a 'video plan', which includes the scene descriptions, the entities with their respective layouts, the background for each scene, and consistency groupings of the entities. Next, guided by this video plan, our video generator, named Layout2Vid, has explicit control over spatial layouts and can maintain temporal consistency of entities across multiple scenes, while being trained only with image-level annotations. Our experiments demonstrate that our proposed VideoDirectorGPT framework substantially improves layout and movement control in both single- and multi-scene video generation and can generate multi-scene videos with consistency, while achieving competitive performance with SOTAs in open-domain single-scene T2V generation. Detailed ablation studies, including dynamic adjustment of layout control strength with an LLM and video generation with user-provided images, confirm the effectiveness of each component of our framework and its future potential.
- Abstract(参考訳): 近年のテキスト・ツー・ビデオ(T2V)生成法は大きな進歩を遂げている。
しかし、これらの作品の大半は、1つのイベント(すなわちシングルシーンのビデオ)の短いビデオクリップを作ることに重点を置いている。
一方、最近の大規模言語モデル(LLM)は、下流のビジュアルモジュールを制御するレイアウトとプログラムを生成する能力を実証している。
これらのLLMに埋め込まれた知識を時間的に一貫した長ビデオ生成に活用できるか?
本稿では,ビデオコンテンツプランニングとグラウンドドビデオ生成にLLMの知識を利用する,一貫したマルチシーンビデオ生成のための新しいフレームワークであるVideoDirectorGPTを提案する。
具体的には、1つのテキストプロンプトが与えられた場合、まずビデオプランナのLCM(GPT-4)に、シーン記述、各レイアウトを持つエンティティ、各シーンの背景、エンティティの一貫性グループ化を含む「ビデオプラン」への拡張を依頼する。
次に、このビデオプランでガイドされたビデオジェネレータLayout2Vidは、空間的レイアウトを明示的に制御し、複数のシーンにまたがるエンティティの時間的一貫性を保ちながら、画像レベルのアノテーションでのみ訓練することができる。
実験により,本フレームワークは単一シーンと多シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善し,複数シーンのビデオの一貫性を保ちながら,オープンドメインの単一シーンT2V生成におけるSOTAとの競合性能を実現した。
LLMによるレイアウト制御強度の動的調整や、ユーザが提供する画像による映像生成など、詳細なアブレーション研究により、我々のフレームワークの各コンポーネントの有効性と今後の可能性を確認することができる。
関連論文リスト
- An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM [2.387054460181102]
本稿では,単一の視覚言語モデル(VLM)のみを利用する,シンプルで斬新な戦略を提案する。
ビデオ理解の本質は、時間的側面と各フレームの空間的詳細を包括的に管理することにある。
提案した画像グリッドビジョン言語モデル (IG-VLM) が既存の10のベンチマークのうち9つの手法を上回り, 提案手法を網羅した。
論文 参考訳(メタデータ) (2024-03-27T09:48:23Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM [97.09631253302987]
本稿では,コンテンツ一貫性のあるマルチシーンビデオ生成のための新しいフレームワークであるVideoDrafterを提案する。
VideoDrafterはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoDrafterは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-02T15:56:48Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。