論文の概要: CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation
- arxiv url: http://arxiv.org/abs/2512.22536v1
- Date: Sat, 27 Dec 2025 09:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.101227
- Title: CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation
- Title(参考訳): CoAgent:コヒーレントビデオ生成のための協調計画と一貫性エージェント
- Authors: Qinglin Zeng, Kaitong Cai, Ruiqi Chen, Qinhan Lv, Keze Wang,
- Abstract要約: CoAgentは、コヒーレントなビデオ生成のためのフレームワークで、プラン合成の検証パイプラインとしてプロセスを定式化している。
Storyboard Plannerは、入力を明示的な実体、空間的関係、時間的手がかりで構造化されたショットレベルのプランに分解する。
Global Context Managerは、エンティティレベルのメモリを維持して、ショット間の外観とアイデンティティの整合性を維持する。
ペーシング対応エディタは、所望の物語の流れに合わせて時間リズムと遷移を洗練する。
- 参考スコア(独自算出の注目度): 9.91271343855315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining narrative coherence and visual consistency remains a central challenge in open-domain video generation. Existing text-to-video models often treat each shot independently, resulting in identity drift, scene inconsistency, and unstable temporal structure. We propose CoAgent, a collaborative and closed-loop framework for coherent video generation that formulates the process as a plan-synthesize-verify pipeline. Given a user prompt, style reference, and pacing constraints, a Storyboard Planner decomposes the input into structured shot-level plans with explicit entities, spatial relations, and temporal cues. A Global Context Manager maintains entity-level memory to preserve appearance and identity consistency across shots. Each shot is then generated by a Synthesis Module under the guidance of a Visual Consistency Controller, while a Verifier Agent evaluates intermediate results using vision-language reasoning and triggers selective regeneration when inconsistencies are detected. Finally, a pacing-aware editor refines temporal rhythm and transitions to match the desired narrative flow. Extensive experiments demonstrate that CoAgent significantly improves coherence, visual consistency, and narrative quality in long-form video generation.
- Abstract(参考訳): 物語のコヒーレンスと視覚的一貫性を維持することは、オープンドメインのビデオ生成における中心的な課題である。
既存のテキスト・ビデオ・モデルは個々のショットを独立して扱うことが多く、結果としてアイデンティティ・ドリフト、シーンの不整合、不安定な時間構造が生じる。
本稿では,コヒーレントビデオ生成のためのコヒーレント・ループ・フレームワークであるCoAgentを提案する。
ユーザプロンプト、スタイル参照、パッシング制約が与えられたら、Storyboard Plannerは、入力を明示的なエンティティ、空間関係、時間的手がかりで構造化されたショットレベルのプランに分解する。
Global Context Managerは、エンティティレベルのメモリを維持して、ショット間の外観とアイデンティティの整合性を維持する。
各ショットは、Visual Consistency Controllerの指示で合成モジュールによって生成され、Verifier Agentは、視覚言語推論を用いて中間結果を評価し、不整合が検出されたときに選択的再生をトリガーする。
最後に、ペーシング対応エディターは、所望の物語の流れに合うように、時間リズムと遷移を洗練させる。
大規模な実験により、CoAgentは長大なビデオ生成におけるコヒーレンス、視覚的一貫性、物語品質を大幅に改善することが示された。
関連論文リスト
- STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - Prompt-Driven Agentic Video Editing System: Autonomous Comprehension of Long-Form, Story-Driven Media [35.60423976124236]
タイムラインではなく自由形式のプロンプトを通じて、クリエイターが複数時間コンテンツを再構成するのに役立つプロンプト駆動のモジュール編集システムを提案する。
コアとなるセマンティックインデックスパイプラインは、時間分割、ガイド付きメモリ圧縮、粒度間の融合を通じてグローバルな物語を構築する。
我々のシステムは、即席編集をスケールし、物語の一貫性を保ち、自動化と創造者制御のバランスをとる。
論文 参考訳(メタデータ) (2025-09-20T21:22:56Z) - Cut2Next: Generating Next Shot via In-Context Tuning [93.14744132897428]
マルチショット生成には、目的があり、映画のような遷移と厳密な撮影連続性が必要である。
現在の手法はしばしば基本的な視覚的一貫性を優先し、重要な編集パターンを無視している。
我々は、プロの編集パターンを批判的に合成する、その後の高品質なショットであるNext Shot Generation (NSG)を紹介する。
論文 参考訳(メタデータ) (2025-08-11T17:56:59Z) - Text2Story: Advancing Video Storytelling with Text Guidance [19.901781116843942]
本研究では、シーンとアクションプロンプトを統合し、動的にインスパイアされたプロンプトミキシングによってこれを実現できる新しいストーリーテリングフレームワークを提案する。
本研究では,各拡散時間におけるシーンおよびアクションプロンプトの影響を適応的にバランスさせる動的インフォームドプロンプト重み付け機構を提案する。
動きの連続性をさらに向上するために、ハイレベルなアクション意味論をブレンディングプロセスにエンコードするために、セマンティックアクション表現を組み込む。
論文 参考訳(メタデータ) (2025-03-08T19:04:36Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。