論文の概要: Mind-of-Director: Multi-modal Agent-Driven Film Previsualization via Collaborative Decision-Making
- arxiv url: http://arxiv.org/abs/2603.14790v1
- Date: Mon, 16 Mar 2026 03:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.032772
- Title: Mind-of-Director: Multi-modal Agent-Driven Film Previsualization via Collaborative Decision-Making
- Title(参考訳): マインド・オブ・ディレクタ:協調的意思決定によるマルチモーダルエージェント駆動型フィルム前処理
- Authors: Shufeng Nan, Mengtian Li, Sixiao Zheng, Yuwei Lu, Han Zhang, Yanwei Fu,
- Abstract要約: フィルムプリビズのためのマルチモーダルエージェント駆動フレームワークであるMind-of-Directorを提案する。
創造的なアイデアを与えられたMind-of-Directorは、ゲームエンジン内でプリヴィズシーケンスを生成するために複数の特殊エージェントを編成する。
さらに、ゲームエンジンに組み込まれたリアルタイムビジュアル編集システムにより、インタラクティブな検査および同期タイムライン調整が可能となる。
- 参考スコア(独自算出の注目度): 35.41772376528704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Mind-of-Director, a multi-modal agent-driven framework for film previz that models the collaborative decision-making process of a film production team. Given a creative idea, Mind-of-Director orchestrates multiple specialized agents to produce previz sequences within the game engine. The framework consists of four cooperative modules: Script Development, where agents draft and refine the screenplay iteratively; Virtual Scene Design, which transforms text into semantically aligned 3D environments; Character Behaviour Control, which determines character blocking and motion; and Camera Planning, which optimizes framing, movement, and composition for cinematic camera effects. A real-time visual editing system built in the game engine further enables interactive inspection and synchronized timeline adjustment across scenes, behaviours, and cameras. Extensive experiments and human evaluations show that Mind-of-Director generates high-quality, semantically grounded previz sequences in approximately 25 minutes per idea, demonstrating the effectiveness of agent collaboration for both automated prototyping and human-in-the-loop filmmaking.
- Abstract(参考訳): 本稿では,映画制作チームの共同意思決定プロセスをモデル化したマルチモーダル・エージェント駆動型フィルムプレビズフレームワークであるMind-of-Directorを提案する。
創造的なアイデアを与えられたMind-of-Directorは、ゲームエンジン内でプリヴィズシーケンスを生成するために複数の特殊エージェントを編成する。
フレームワークは4つの協調モジュールで構成されている: スクリプト開発(Script Development)、エージェントが脚本を反復的に書き起こし、洗練する仮想シーンデザイン(Virtual Scene Design)、テキストをセマンティックに整列した3D環境に変換するキャラクタビヘイビアコントロール( character Behaviour Control)、フレーミング、ムーブメント、コンポジションを最適化するカメラプランニング(Camera Planning)。
ゲームエンジンに組み込まれたリアルタイムビジュアル編集システムにより、シーン、行動、カメラ間のインタラクティブな検査と同期されたタイムライン調整が可能になる。
大規模な実験と人間による評価により、Mind-of-Directorは1アイデアあたり約25分で高品質でセマンティックなプレビズシーケンスを生成し、自動プロトタイピングとヒューマン・イン・ザ・ループ・フィルム製造の両方においてエージェント・コラボレーションの有効性を実証した。
関連論文リスト
- The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation [95.18045807704284]
対話・シネマティック・ビデオ生成のためのエンドツーエンドのエージェント・フレームワークを提案する。
ScripterAgentは粗い対話を微粒で実行可能なシネマティックスクリプトに変換するように訓練されている。
本フレームワークは,テスト対象のすべてのビデオモデルに対して,スクリプトの忠実度と時間的忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-25T08:10:28Z) - Bridging Your Imagination with Audio-Video Generation via a Unified Director [54.45375287950375]
論理的推論と想像的思考はどちらも映画監督の基本的特性であると主張する。
ユーザプロンプトを適切に構造化されたスクリプトでブリッジする統合ディレクタモデルUniMAGEを提案する。
論文 参考訳(メタデータ) (2025-12-29T05:56:22Z) - ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions [46.3918771233715]
ShotDirectorは、パラメータレベルのカメラ制御と階層的な編集パターン認識プロンプトを統合する効率的なフレームワークである。
本フレームワークは,パラメータレベルの条件と高レベルの意味指導を効果的に組み合わせ,フィルムのような制御可能なショット遷移を実現する。
論文 参考訳(メタデータ) (2025-12-11T05:05:07Z) - Automated Movie Generation via Multi-Agent CoT Planning [20.920129008402718]
MovieAgentは、CoT(Multi-agent Chain of Thought)計画による自動映画生成である。
コヒーレントな物語を持つマルチシーンでマルチショットのロングフォームビデオを生成し、文字の一貫性、同期字幕、安定したオーディオを保証します。
複数のLLMエージェントを使用して、ディレクター、脚本家、ストーリーボードアーティスト、ロケーションマネージャの役割をシミュレートすることで、MovieAgentはプロダクションパイプラインを合理化する。
論文 参考訳(メタデータ) (2025-03-10T13:33:27Z) - ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation [72.22243595269389]
本稿では,自律型サウンドディレクタによって教師される音声生成のためのマルチエージェントフレームワークを提案する。
Foley ArtistはComposerとVoice Actorのエージェントと共同で働き、共同でオフスクリーンサウンドを自動生成して全体の生産を補完する。
本フレームワークは,映画から抽出した映像クリップに調和した,リッチで関連性の高い音声コンテンツを生成できる。
論文 参考訳(メタデータ) (2025-03-10T11:57:55Z) - FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces [42.3549764892671]
FilmAgentは、エンドツーエンドのフィルム自動化のための新しいマルチエージェント協調フレームワークである。
FilmAgentは、映画監督、脚本家、俳優、撮影監督など、様々なクルーの役割をシミュレートしている。
エージェントのチームは反復的なフィードバックと修正を通じて協力し、中間スクリプトの検証と幻覚の低減を行う。
論文 参考訳(メタデータ) (2025-01-22T14:36:30Z) - GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration [20.988801611785522]
コンポジションテキスト・ビデオ生成を可能にする反復型マルチエージェントフレームワークであるGenMACを提案する。
コラボレーションワークフローには、Design、Generation、Redesignの3つのステージが含まれている。
コンポジションテキスト・ビデオ生成の多様なシナリオに対処するために,各シナリオに特化している修正エージェントのコレクションから適切な修正エージェントを適応的に選択するセルフルーティング機構を設計する。
論文 参考訳(メタデータ) (2024-12-05T18:56:05Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition [149.89952404881174]
AutoDirectorはインタラクティブな多感覚合成フレームワークで、ロングショット、特殊効果、音楽スコア、ダビング、リップシンクをサポートする。
自動スケジューリングにより多感フィルム製造の効率を向上し、ユーザニーズを満たすインタラクティブなタスクの修正と改善を支援する。
論文 参考訳(メタデータ) (2024-08-21T12:18:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。