論文の概要: Hollywood Town: Long-Video Generation via Cross-Modal Multi-Agent Orchestration
- arxiv url: http://arxiv.org/abs/2510.22431v1
- Date: Sat, 25 Oct 2025 20:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.196355
- Title: Hollywood Town: Long-Video Generation via Cross-Modal Multi-Agent Orchestration
- Title(参考訳): ハリウッドタウン:クロスモーダルなマルチエージェントオーケストレーションによるロングビデオ生成
- Authors: Zheng Wei, Mingchen Li, Zeqian Zhang, Ruibin Yuan, Pan Hui, Huamin Qu, James Evans, Maneesh Agrawala, Anyi Rao,
- Abstract要約: 本研究は,マルチエージェントコラボレーションを改善するための3つのイノベーションを紹介する。
まず、長いビデオ生成のための階層型グラフベースのマルチエージェントフレームワークであるOmniAgentを提案する。
第2に,文脈工学にヒントを得たハイパーグラフノードを提案する。
- 参考スコア(独自算出の注目度): 73.65102758687289
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in multi-agent systems have demonstrated significant potential for enhancing creative task performance, such as long video generation. This study introduces three innovations to improve multi-agent collaboration. First, we propose OmniAgent, a hierarchical, graph-based multi-agent framework for long video generation that leverages a film-production-inspired architecture to enable modular specialization and scalable inter-agent collaboration. Second, inspired by context engineering, we propose hypergraph nodes that enable temporary group discussions among agents lacking sufficient context, reducing individual memory requirements while ensuring adequate contextual information. Third, we transition from directed acyclic graphs (DAGs) to directed cyclic graphs with limited retries, allowing agents to reflect and refine outputs iteratively, thereby improving earlier stages through feedback from subsequent nodes. These contributions lay the groundwork for developing more robust multi-agent systems in creative tasks.
- Abstract(参考訳): 近年のマルチエージェントシステムの進歩は、長いビデオ生成など、創造的なタスクパフォーマンスを向上する大きな可能性を示している。
本研究は,マルチエージェントコラボレーションを改善するための3つのイノベーションを紹介する。
まず、フィルム制作にインスパイアされたアーキテクチャを活用して、モジュールの特殊化とスケーラブルなエージェント間コラボレーションを可能にする、階層的なグラフベースの長期ビデオ生成用マルチエージェントフレームワークであるOmniAgentを提案する。
第2に、文脈工学に着想を得たハイパーグラフノードを提案し、適切なコンテキスト情報を確保しつつ、十分なコンテキストを欠いたエージェント間の一時的なグループディスカッションを可能にする。
第三に、有向非巡回グラフ(DAG)から限られた再試行を持つ有向巡回グラフへ遷移し、エージェントが反復的に出力を反映し、精製し、その後のノードからのフィードバックにより早期に改善する。
これらの貢献は、創造的なタスクにおいてより堅牢なマルチエージェントシステムの開発の基礎となった。
関連論文リスト
- GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration [20.988801611785522]
コンポジションテキスト・ビデオ生成を可能にする反復型マルチエージェントフレームワークであるGenMACを提案する。
コラボレーションワークフローには、Design、Generation、Redesignの3つのステージが含まれている。
コンポジションテキスト・ビデオ生成の多様なシナリオに対処するために,各シナリオに特化している修正エージェントのコレクションから適切な修正エージェントを適応的に選択するセルフルーティング機構を設計する。
論文 参考訳(メタデータ) (2024-12-05T18:56:05Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Scaling Large Language Model-based Multi-Agent Collaboration [72.8998796426346]
近年の大規模言語モデル駆動型自律エージェントのブレークスルーにより、複数エージェントのコラボレーションが集団的推論を通じて各個人を上回ることが判明している。
本研究は、協調剤の連続的な添加が同様の利益をもたらすかどうかを考察する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - AesopAgent: Agent-driven Evolutionary System on Story-to-Video
Production [34.665965986359645]
AesopAgentは、ストーリー・ツー・ビデオ制作のためのエージェント駆動進化システムである。
このシステムは統合されたフレームワークに複数の生成機能を統合し、個々のユーザがこれらのモジュールを容易に活用できるようにする。
私たちのAesopAgentは、以前のビジュアルストーリーテリングの多くの作品と比較して最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-03-12T02:30:50Z) - Collaborative Multi-Agent Video Fast-Forwarding [30.843484383185473]
分散および集中型設定における協調的マルチエージェントビデオ高速転送フレームワークを2つ開発する。
これらのフレームワークでは、各エージェントは、複数の戦略に基づいて、調整可能なペースで、ビデオフレームを選択的に処理またはスキップすることができる。
文献の他のアプローチと比較して、フレームワークは重要なフレームのカバレッジを向上し、各エージェントで処理されるフレームの数を著しく削減する。
論文 参考訳(メタデータ) (2023-05-27T20:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。