論文の概要: Co-Director: Agentic Generative Video Storytelling
- arxiv url: http://arxiv.org/abs/2604.24842v1
- Date: Mon, 27 Apr 2026 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.530278
- Title: Co-Director: Agentic Generative Video Storytelling
- Title(参考訳): 共同監督:エージェント・ジェネレーティブ・ビデオ・ストーリーテリング
- Authors: Yale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister,
- Abstract要約: Co-Directorは、ビデオストーリーテリングをグローバルな最適化問題として定式化した階層型マルチエージェントフレームワークである。
階層的パラメータ化(hierarchical parameterization)を導入し,多腕バンディットは創造性のある方向をグローバルに識別し,局所的な多モード自己表現ループはアイデンティティドリフトを緩和する。
実験により、Co-Directorは最先端のベースラインを大幅に上回ることが示された。
- 参考スコア(独自算出の注目度): 26.442992342618496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion models generate high-fidelity video clips, transforming them into coherent storytelling engines remains challenging. Current agentic pipelines automate this via chained modules but suffer from semantic drift and cascading failures due to independent, handcrafted prompting. We present Co-Director, a hierarchical multi-agent framework formalizing video storytelling as a global optimization problem. To ensure semantic coherence, we introduce hierarchical parameterization: a multi-armed bandit globally identifies promising creative directions, while a local multimodal self-refinement loop mitigates identity drift and ensures sequence-level consistency. This balances the exploration of novel narrative strategies with the exploitation of effective creative configurations. For evaluation, we introduce GenAD-Bench, a 400-scenario dataset of fictional products for personalized advertising. Experiments demonstrate that Co-Director significantly outperforms state-of-the-art baselines, offering a principled approach that seamlessly generalizes to broader cinematic narratives. Project Page: https://co-director-agent.github.io/
- Abstract(参考訳): 拡散モデルは高忠実度ビデオクリップを生成するが、それらをコヒーレントなストーリーテリングエンジンに変換することは依然として困難である。
現在のエージェントパイプラインは、チェーンモジュールを介してこれを自動化しているが、独立した手作りプロンプトによるセマンティックドリフトとカスケード障害に悩まされている。
ビデオストーリーテリングをグローバルな最適化問題として定式化する階層型マルチエージェントフレームワークであるCo-Directorを提案する。
セマンティック・コヒーレンスを保証するために,階層的パラメータ化を導入する。多腕バンディットは,創造性のある方向をグローバルに識別し,局所的マルチモーダル自己表現ループはアイデンティティドリフトを緩和し,シーケンスレベルの整合性を確保する。
これは、新しい物語戦略の探求と効果的な創造的構成の活用のバランスをとる。
評価のために、パーソナライズされた広告のためのフィクション製品の400シナリオデータセットであるGenAD-Benchを紹介する。
実験により、コ・ディレクタは最先端のベースラインを大幅に上回り、より広い映画的物語にシームレスに一般化する原則的なアプローチを提供することを示した。
Project Page: https://co-director-agent.github.io/
関連論文リスト
- OccDirector: Language-Guided Behavior and Interaction Generation in 4D Occupancy Space [66.35177674346156]
OccDirectorは自然言語のみに依存した4D占有動態を生成する。
OccDirectorは最先端の生成品質と前例のない命令フォロー機能を実現する。
論文 参考訳(メタデータ) (2026-04-24T05:30:35Z) - The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation [95.18045807704284]
対話・シネマティック・ビデオ生成のためのエンドツーエンドのエージェント・フレームワークを提案する。
ScripterAgentは粗い対話を微粒で実行可能なシネマティックスクリプトに変換するように訓練されている。
本フレームワークは,テスト対象のすべてのビデオモデルに対して,スクリプトの忠実度と時間的忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-25T08:10:28Z) - CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation [9.91271343855315]
CoAgentは、コヒーレントなビデオ生成のためのフレームワークで、プラン合成の検証パイプラインとしてプロセスを定式化している。
Storyboard Plannerは、入力を明示的な実体、空間的関係、時間的手がかりで構造化されたショットレベルのプランに分解する。
Global Context Managerは、エンティティレベルのメモリを維持して、ショット間の外観とアイデンティティの整合性を維持する。
ペーシング対応エディタは、所望の物語の流れに合わせて時間リズムと遷移を洗練する。
論文 参考訳(メタデータ) (2025-12-27T09:38:34Z) - CreAgentive: An Agent Workflow Driven Multi-Category Creative Generation Engine [4.644735042881366]
CreAgentiveは、物語、ドラマ、その他のクリエイティブのカテゴリを書く際に、現代の大きな言語モデルの4つの重要な制限に対処する。
CreAgentiveは、ジャンルに依存しない知識グラフに基づく物語表現であるStory Prototypeを採用している。
大規模な実験では、CreAgentiveは安定した品質と低コストで何千もの章を生成する。
論文 参考訳(メタデータ) (2025-09-30T16:12:32Z) - AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation [50.63646953706144]
AniMakerは、効率的なマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にするフレームワークである。
AniMakerは、VBenchや提案したAniEvalフレームワークなど、一般的なメトリクスによって測定される、優れた品質を実現しています。
論文 参考訳(メタデータ) (2025-06-12T10:06:21Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。