論文の概要: Automated Movie Generation via Multi-Agent CoT Planning
- arxiv url: http://arxiv.org/abs/2503.07314v1
- Date: Mon, 10 Mar 2025 13:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:45.746634
- Title: Automated Movie Generation via Multi-Agent CoT Planning
- Title(参考訳): マルチエージェントCoT計画による映画自動生成
- Authors: Weijia Wu, Zeyu Zhu, Mike Zheng Shou,
- Abstract要約: MovieAgentは、CoT(Multi-agent Chain of Thought)計画による自動映画生成である。
コヒーレントな物語を持つマルチシーンでマルチショットのロングフォームビデオを生成し、文字の一貫性、同期字幕、安定したオーディオを保証します。
複数のLLMエージェントを使用して、ディレクター、脚本家、ストーリーボードアーティスト、ロケーションマネージャの役割をシミュレートすることで、MovieAgentはプロダクションパイプラインを合理化する。
- 参考スコア(独自算出の注目度): 20.920129008402718
- License:
- Abstract: Existing long-form video generation frameworks lack automated planning, requiring manual input for storylines, scenes, cinematography, and character interactions, resulting in high costs and inefficiencies. To address these challenges, we present MovieAgent, an automated movie generation via multi-agent Chain of Thought (CoT) planning. MovieAgent offers two key advantages: 1) We firstly explore and define the paradigm of automated movie/long-video generation. Given a script and character bank, our MovieAgent can generates multi-scene, multi-shot long-form videos with a coherent narrative, while ensuring character consistency, synchronized subtitles, and stable audio throughout the film. 2) MovieAgent introduces a hierarchical CoT-based reasoning process to automatically structure scenes, camera settings, and cinematography, significantly reducing human effort. By employing multiple LLM agents to simulate the roles of a director, screenwriter, storyboard artist, and location manager, MovieAgent streamlines the production pipeline. Experiments demonstrate that MovieAgent achieves new state-of-the-art results in script faithfulness, character consistency, and narrative coherence. Our hierarchical framework takes a step forward and provides new insights into fully automated movie generation. The code and project website are available at: https://github.com/showlab/MovieAgent and https://weijiawu.github.io/MovieAgent.
- Abstract(参考訳): 既存のロングフォームビデオ生成フレームワークには自動的な計画がなく、ストーリーライン、シーン、シネマトグラフィー、キャラクターの相互作用を手動で入力する必要がある。
これらの課題に対処するため,マルチエージェント・チェーン・オブ・シント(CoT)計画による自動映画生成であるMovieAgentを紹介した。
MovieAgentには2つの大きな利点がある。
1)まず,映像自動生成のパラダイムを探求し,定義する。
脚本とキャラクタバンクが与えられたら、MovieAgentはコヒーレントな物語を伴うマルチシーンで複数ショットのロングフォームビデオを生成することができ、キャラクタ一貫性、同期字幕、安定したオーディオを映画中に確保できます。
2)MovieAgentは、シーン、カメラ設定、撮影を自動構築する階層的なCoTベースの推論プロセスを導入し、人間の労力を大幅に削減する。
複数のLLMエージェントを使用して、ディレクター、脚本家、ストーリーボードアーティスト、ロケーションマネージャの役割をシミュレートすることで、MovieAgentはプロダクションパイプラインを合理化する。
実験により、MovieAgentは脚本の忠実さ、キャラクターの一貫性、物語の一貫性に新たな最先端の成果をもたらすことが示された。
我々の階層的な枠組みは一歩前進し、完全に自動化された映画生成に関する新たな洞察を提供する。
コードとプロジェクトのWebサイトは、https://github.com/showlab/MovieAgentとhttps://weijiawu.github.io/MovieAgentで入手できる。
関連論文リスト
- FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces [42.3549764892671]
FilmAgentは、エンドツーエンドのフィルム自動化のための新しいマルチエージェント協調フレームワークである。
FilmAgentは、映画監督、脚本家、俳優、撮影監督など、様々なクルーの役割をシミュレートしている。
エージェントのチームは反復的なフィードバックと修正を通じて協力し、中間スクリプトの検証と幻覚の低減を行う。
論文 参考訳(メタデータ) (2025-01-22T14:36:30Z) - VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation [70.61101071902596]
現在の世代モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
マルチショットビデオ生成に特化して設計された協調学習不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。
本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。
ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-10-17T07:59:54Z) - Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation [4.147294190096431]
視覚大言語モデル(VLM)エージェントの協調に基づく自動合成ビデオ生成パイプラインを提案する。
ビデオの自然言語記述が与えられた後、複数のVLMエージェントが生成パイプラインの様々なプロセスを自動指揮する。
生成したビデオは、ビデオ品質と命令追従性能の5つの指標において、商用ビデオ生成モデルよりも優れた品質を示す。
論文 参考訳(メタデータ) (2024-08-19T23:31:02Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。