論文の概要: StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2411.04925v1
- Date: Thu, 07 Nov 2024 18:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:27.174058
- Title: StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration
- Title(参考訳): StoryAgent: マルチエージェントコラボレーションによるカスタマイズされたストーリーテリングビデオ生成
- Authors: Panwen Hu, Jin Jiang, Jianqi Chen, Mingfei Han, Shengcai Liao, Xiaojun Chang, Xiaodan Liang,
- Abstract要約: CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
- 参考スコア(独自算出の注目度): 88.94832383850533
- License:
- Abstract: The advent of AI-Generated Content (AIGC) has spurred research into automated video generation to streamline conventional processes. However, automating storytelling video production, particularly for customized narratives, remains challenging due to the complexity of maintaining subject consistency across shots. While existing approaches like Mora and AesopAgent integrate multiple agents for Story-to-Video (S2V) generation, they fall short in preserving protagonist consistency and supporting Customized Storytelling Video Generation (CSVG). To address these limitations, we propose StoryAgent, a multi-agent framework designed for CSVG. StoryAgent decomposes CSVG into distinct subtasks assigned to specialized agents, mirroring the professional production process. Notably, our framework includes agents for story design, storyboard generation, video creation, agent coordination, and result evaluation. Leveraging the strengths of different models, StoryAgent enhances control over the generation process, significantly improving character consistency. Specifically, we introduce a customized Image-to-Video (I2V) method, LoRA-BE, to enhance intra-shot temporal consistency, while a novel storyboard generation pipeline is proposed to maintain subject consistency across shots. Extensive experiments demonstrate the effectiveness of our approach in synthesizing highly consistent storytelling videos, outperforming state-of-the-art methods. Our contributions include the introduction of StoryAgent, a versatile framework for video generation tasks, and novel techniques for preserving protagonist consistency.
- Abstract(参考訳): AIGC(AI-Generated Content)の出現は、ビデオの自動生成の研究を刺激し、従来のプロセスを合理化している。
しかし、特にカスタマイズされた物語のためのストーリーテリングビデオ制作の自動化は、ショット全体にわたる主題の整合性を維持するのが複雑であるため、依然として困難である。
MoraやAesopAgentのような既存のアプローチはストーリーツービデオ(S2V)生成のための複数のエージェントを統合するが、プロタゴニストの一貫性の維持とカスタムストーリーテリングビデオ生成(CSVG)のサポートに不足している。
このような制約に対処するために,CSVG用に設計されたマルチエージェントフレームワークであるStoryAgentを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
このフレームワークには、ストーリーデザイン、ストーリーボード生成、ビデオ作成、エージェント調整、結果評価のためのエージェントが含まれている。
異なるモデルの強みを活用することで、StoryAgentは生成プロセスの制御を強化し、文字の一貫性を大幅に改善します。
具体的には、撮影中の時間的一貫性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入し、また、ショット間の被写体一貫性を維持するために、新しいストーリーボード生成パイプラインを提案する。
大規模な実験により,高度に一貫したストーリーテリングビデオの合成におけるアプローチの有効性が実証された。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
関連論文リスト
- Agents' Room: Narrative Generation through Multi-step Collaboration [54.98886593802834]
本稿では,物語の執筆を特殊エージェントが取り組んだサブタスクに分解する,物語理論に触発された世代フレームワークを提案する。
エージェントの部屋は,専門的評価者が好むストーリーをベースラインシステムより生成することを示す。
論文 参考訳(メタデータ) (2024-10-03T15:44:42Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - AesopAgent: Agent-driven Evolutionary System on Story-to-Video
Production [34.665965986359645]
AesopAgentは、ストーリー・ツー・ビデオ制作のためのエージェント駆動進化システムである。
このシステムは統合されたフレームワークに複数の生成機能を統合し、個々のユーザがこれらのモジュールを容易に活用できるようにする。
私たちのAesopAgentは、以前のビジュアルストーリーテリングの多くの作品と比較して最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-03-12T02:30:50Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。