論文の概要: VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation
- arxiv url: http://arxiv.org/abs/2412.02259v1
- Date: Tue, 03 Dec 2024 08:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:43.454128
- Title: VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation
- Title(参考訳): VideoGen-of-Thought:マルチショットビデオ生成のための協調フレームワーク
- Authors: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim,
- Abstract要約: 現在の世代モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
マルチショットビデオ生成に特化して設計された協調学習不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
- 参考スコア(独自算出の注目度): 70.61101071902596
- License:
- Abstract: Current video generation models excel at generating short clips but still struggle with creating multi-shot, movie-like videos. Existing models trained on large-scale data on the back of rich computational resources are unsurprisingly inadequate for maintaining a logical storyline and visual consistency across multiple shots of a cohesive script since they are often trained with a single-shot objective. To this end, we propose VideoGen-of-Thought (VGoT), a collaborative and training-free architecture designed specifically for multi-shot video generation. VGoT is designed with three goals in mind as follows. Multi-Shot Video Generation: We divide the video generation process into a structured, modular sequence, including (1) Script Generation, which translates a curt story into detailed prompts for each shot; (2) Keyframe Generation, responsible for creating visually consistent keyframes faithful to character portrayals; and (3) Shot-Level Video Generation, which transforms information from scripts and keyframes into shots; (4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable Narrative Design: Inspired by cinematic scriptwriting, our prompt generation approach spans five key domains, ensuring logical consistency, character development, and narrative flow across the entire video. Cross-Shot Consistency: We ensure temporal and identity consistency by leveraging identity-preserving (IP) embeddings across shots, which are automatically created from the narrative. Additionally, we incorporate a cross-shot smoothing mechanism, which integrates a reset boundary that effectively combines latent features from adjacent shots, resulting in smooth transitions and maintaining visual coherence throughout the video. Our experiments demonstrate that VGoT surpasses existing video generation methods in producing high-quality, coherent, multi-shot videos.
- Abstract(参考訳): 現在のビデオ生成モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
リッチな計算資源の裏にある大規模データに基づいてトレーニングされた既存のモデルは、単発の目的でしばしば訓練されるため、凝集性のあるスクリプトの複数のショット間で論理的なストーリーラインと視覚的一貫性を維持するのに、当然ながら不十分である。
この目的のために,マルチショットビデオ生成に特化して設計された協調的かつトレーニング不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
VGoTは以下の3つの目標を念頭に設計されている。
マルチショット映像生成:(1)カートストーリーを細かなプロンプトに変換するスクリプト生成,(2)文字の描写に忠実な視覚的に一貫したキーフレームを生成するキーフレーム生成,(3)スクリプトやキーフレームからの情報をショットに変換するショットレベル映像生成,(4)一貫性のあるマルチショット出力を保証するスムース機構などを含む,ビデオ生成プロセスを構造化されたモジュール配列に分割する。
Reasonable Narrative Design: 映画脚本にインスパイアされた私たちの迅速な生成アプローチは、5つの重要なドメインにまたがり、論理的一貫性、キャラクター開発、ビデオ全体にわたる物語の流れを保証する。
クロスショット一貫性: ナラティブから自動生成されるショットにまたがるID保存(IP)埋め込みを活用することで、時間的およびアイデンティティの整合性を確保する。
さらに、隣接するショットの潜在特徴を効果的に組み合わせたリセットバウンダリを統合したクロスショットスムースティング機構を導入し、ビデオ全体のスムーズな遷移と視覚的コヒーレンスを維持する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
関連論文リスト
- VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。