論文の概要: VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided
Planning
- arxiv url: http://arxiv.org/abs/2309.15091v1
- Date: Tue, 26 Sep 2023 17:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 12:44:18.583697
- Title: VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided
Planning
- Title(参考訳): VideoDirectorGPT:LLM誘導計画による連続マルチシーン映像生成
- Authors: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
- Abstract要約: VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
大規模言語モデル(LLM)の知識をビデオコンテンツプランニングやグラウンドドビデオ生成に利用する。
実験により,ビデオDirectorGPTフレームワークは単一シーンおよび複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 68.29022238719023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although recent text-to-video (T2V) generation methods have seen significant
advancements, most of these works focus on producing short video clips of a
single event with a single background (i.e., single-scene videos). Meanwhile,
recent large language models (LLMs) have demonstrated their capability in
generating layouts and programs to control downstream visual modules such as
image generation models. This raises an important question: can we leverage the
knowledge embedded in these LLMs for temporally consistent long video
generation? In this paper, we propose VideoDirectorGPT, a novel framework for
consistent multi-scene video generation that uses the knowledge of LLMs for
video content planning and grounded video generation. Specifically, given a
single text prompt, we first ask our video planner LLM (GPT-4) to expand it
into a 'video plan', which involves generating the scene descriptions, the
entities with their respective layouts, the background for each scene, and
consistency groupings of the entities and backgrounds. Next, guided by this
output from the video planner, our video generator, Layout2Vid, has explicit
control over spatial layouts and can maintain temporal consistency of
entities/backgrounds across scenes, while only trained with image-level
annotations. Our experiments demonstrate that VideoDirectorGPT framework
substantially improves layout and movement control in both single- and
multi-scene video generation and can generate multi-scene videos with visual
consistency across scenes, while achieving competitive performance with SOTAs
in open-domain single-scene T2V generation. We also demonstrate that our
framework can dynamically control the strength for layout guidance and can also
generate videos with user-provided images. We hope our framework can inspire
future work on better integrating the planning ability of LLMs into consistent
long video generation.
- Abstract(参考訳): 最近のテキスト・ツー・ビデオ(T2V)生成法は大きな進歩を遂げているが、これらの作品の多くは単一の背景を持つ1つのイベントの短いビデオクリップ(すなわちシングルシーンビデオ)を作ることに焦点を当てている。
一方,最近の大規模言語モデル (LLM) では,画像生成モデルのような下流の視覚モジュールを制御するレイアウトやプログラムを生成する能力が実証されている。
これらのLLMに埋め込まれた知識を時間的に一貫した長ビデオ生成に活用できるだろうか?
本稿では,ビデオコンテンツプランニングとグラウンドドビデオ生成にLLMの知識を利用する,一貫したマルチシーンビデオ生成のための新しいフレームワークであるVideoDirectorGPTを提案する。
具体的には、1つのテキストプロンプトが与えられた場合、まずビデオプランナのLCM(GPT-4)に、シーン記述の生成、各レイアウトのエンティティ、各シーンの背景、エンティティと背景の一貫性のグルーピングを含む「ビデオプラン」への拡張を依頼する。
次に、ビデオプランナーからのこの出力によって、ビデオジェネレータであるLayout2Vidは、空間レイアウトを明示的に制御し、画像レベルのアノテーションでのみトレーニングしながら、シーン間のエンティティ/背景の時間的一貫性を維持することができる。
実験により,ビデオDirectorGPTフレームワークは,単一シーンと多シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善し,複数シーンで映像の一貫性を保ちながら,オープンドメインの単一シーンのT2V生成におけるSOTAとの競合性能を実現した。
また,我々のフレームワークはレイアウトガイダンスの強度を動的に制御し,ユーザが提供する画像で動画を生成することができることを示した。
我々のフレームワークは、LCMの計画能力を一貫した長大なビデオ生成に統合するための今後の取り組みを刺激することを期待します。
関連論文リスト
- An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM [2.387054460181102]
本稿では,単一の視覚言語モデル(VLM)のみを利用する,シンプルで斬新な戦略を提案する。
ビデオ理解の本質は、時間的側面と各フレームの空間的詳細を包括的に管理することにある。
提案した画像グリッドビジョン言語モデル (IG-VLM) が既存の10のベンチマークのうち9つの手法を上回り, 提案手法を網羅した。
論文 参考訳(メタデータ) (2024-03-27T09:48:23Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VideoStudio: Generating Consistent-Content and Multi-Scene Videos [88.88118783892779]
VideoStudioは、一貫したコンテンツとマルチシーンのビデオ生成のためのフレームワークである。
VideoStudioはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoStudioは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-02T15:56:48Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。