論文の概要: The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
- arxiv url: http://arxiv.org/abs/2601.17737v1
- Date: Sun, 25 Jan 2026 08:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.305898
- Title: The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
- Title(参考訳): 長軸対話からシネマティックビデオ生成のためのエージェントフレームワーク
- Authors: Chenyu Mu, Xin He, Qu Yang, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu, Xiaolong Li, Linus,
- Abstract要約: 対話・シネマティック・ビデオ生成のためのエンドツーエンドのエージェント・フレームワークを提案する。
ScripterAgentは粗い対話を微粒で実行可能なシネマティックスクリプトに変換するように訓練されている。
本フレームワークは,テスト対象のすべてのビデオモデルに対して,スクリプトの忠実度と時間的忠実度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 95.18045807704284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However, these models struggle to generate long-form, coherent narratives from high-level concepts like dialogue, revealing a ``semantic gap'' between a creative idea and its cinematic execution. To bridge this gap, we introduce a novel, end-to-end agentic framework for dialogue-to-cinematic-video generation. Central to our framework is ScripterAgent, a model trained to translate coarse dialogue into a fine-grained, executable cinematic script. To enable this, we construct ScriptBench, a new large-scale benchmark with rich multimodal context, annotated via an expert-guided pipeline. The generated script then guides DirectorAgent, which orchestrates state-of-the-art video models using a cross-scene continuous generation strategy to ensure long-horizon coherence. Our comprehensive evaluation, featuring an AI-powered CriticAgent and a new Visual-Script Alignment (VSA) metric, shows our framework significantly improves script faithfulness and temporal fidelity across all tested video models. Furthermore, our analysis uncovers a crucial trade-off in current SOTA models between visual spectacle and strict script adherence, providing valuable insights for the future of automated filmmaking.
- Abstract(参考訳): 近年のビデオ生成の進歩は、単純なテキストプロンプトから素晴らしい視覚コンテンツを合成できるモデルを生み出している。
しかし、これらのモデルは対話のような高レベルの概念から長々としたコヒーレントな物語を生み出すのに苦労し、創造的アイデアとその映画的実行の間に「セマンティックなギャップ」が浮かび上がっている。
このギャップを埋めるために、対話からシネマティック・ビデオ生成のための新しいエンドツーエンドのエージェント・フレームワークを導入する。
私たちのフレームワークの中心にあるのはScripterAgentです。これは粗い対話を細粒度で実行可能なシネマティックスクリプトに変換するために訓練されたモデルです。
これを実現するために、エキスパート誘導パイプラインを通じて注釈付けされたリッチなマルチモーダルコンテキストを備えた新しい大規模ベンチマークであるScriptBenchを構築した。
生成されたスクリプトはDirectorAgentをガイドし、クロスシーンな連続生成戦略を使用して最先端のビデオモデルをオーケストレーションし、長い水平コヒーレンスを保証する。
AIを利用したCriticAgentと新しいVisual-Script Alignment(VSA)メトリックを特徴とする包括的な評価は、テスト対象のすべてのビデオモデルに対してスクリプトの忠実度と時間的忠実度を大幅に向上させることを示す。
さらに,本研究では,現時点のSOTAモデルにおいて,視覚眼鏡と厳密なスクリプトアテンデンスの間に重要なトレードオフが発見され,自動撮影の未来に対する貴重な洞察を与えている。
関連論文リスト
- Bridging Your Imagination with Audio-Video Generation via a Unified Director [54.45375287950375]
論理的推論と想像的思考はどちらも映画監督の基本的特性であると主張する。
ユーザプロンプトを適切に構造化されたスクリプトでブリッジする統合ディレクタモデルUniMAGEを提案する。
論文 参考訳(メタデータ) (2025-12-29T05:56:22Z) - Dialogue Director: Bridging the Gap in Dialogue Visualization for Multimodal Storytelling [15.410503589735699]
本稿では,対話スクリプトを動的かつ多視点なストーリーボードに変換する新しいタスクである対話可視化を提案する。
本稿では,スクリプトディレクタ,シネマトグラフィ,ストーリーボードメーカで構成される,トレーニング不要なマルチモーダルフレームワークであるダイアログディレクタを紹介する。
実験の結果,ダイアログ・ディレクターはスクリプト解釈,物理世界理解,映画原理の適用において,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-30T05:54:23Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。