論文の概要: MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio
- arxiv url: http://arxiv.org/abs/2503.05242v1
- Date: Fri, 07 Mar 2025 08:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:20.980752
- Title: MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio
- Title(参考訳): MM-StoryAgent: テキスト、画像、オーディオにまたがるマルチエージェントパラダイムによる没入型物語ブックビデオ生成
- Authors: Xuenan Xu, Jiahao Mei, Chenliang Li, Yuning Wu, Ming Yan, Shaopeng Lai, Ji Zhang, Mengyue Wu,
- Abstract要約: MM-StoryAgentは、洗練されたプロット、ロール一貫性のあるイメージ、マルチチャンネルオーディオを備えた没入型ナレーションビデオストーリーブックを作成する。
このフレームワークは、多段階の書き込みパイプラインを通じてストーリーの魅力を高める。
MM-StoryAgentは、さらなる開発のための柔軟なオープンソースプラットフォームを提供する。
- 参考スコア(独自算出の注目度): 48.820808691986805
- License:
- Abstract: The rapid advancement of large language models (LLMs) and artificial intelligence-generated content (AIGC) has accelerated AI-native applications, such as AI-based storybooks that automate engaging story production for children. However, challenges remain in improving story attractiveness, enriching storytelling expressiveness, and developing open-source evaluation benchmarks and frameworks. Therefore, we propose and opensource MM-StoryAgent, which creates immersive narrated video storybooks with refined plots, role-consistent images, and multi-channel audio. MM-StoryAgent designs a multi-agent framework that employs LLMs and diverse expert tools (generative models and APIs) across several modalities to produce expressive storytelling videos. The framework enhances story attractiveness through a multi-stage writing pipeline. In addition, it improves the immersive storytelling experience by integrating sound effects with visual, music and narrative assets. MM-StoryAgent offers a flexible, open-source platform for further development, where generative modules can be substituted. Both objective and subjective evaluation regarding textual story quality and alignment between modalities validate the effectiveness of our proposed MM-StoryAgent system. The demo and source code are available.
- Abstract(参考訳): 大規模言語モデル(LLM)と人工知能生成コンテンツ(AIGC)の急速な進歩は、子供向けのエンゲージメントなストーリー生産を自動化するAIベースのストーリーブックなど、AIネイティブな応用を加速させた。
しかし、ストーリーの魅力の向上、ストーリーテリングの表現性の向上、オープンソースの評価ベンチマークとフレームワークの開発には課題が残っている。
そこで本稿では,没入型ナレーション付きビデオストーリーブックをプロット,ロール一貫性の画像,マルチチャンネル音声で作成するMM-StoryAgentをオープンソースとして提案する。
MM-StoryAgentはマルチエージェントフレームワークを設計し、LLMと多種多様な専門家ツール(生成モデルとAPI)を様々なモダリティにわたって使い、表現力のあるストーリーテリングビデオを生成する。
このフレームワークは、多段階の書き込みパイプラインを通じてストーリーの魅力を高める。
さらに、サウンドエフェクトを視覚、音楽、物語のアセットと統合することにより、没入的なストーリーテリング体験を改善する。
MM-StoryAgentは、さらなる開発のための柔軟なオープンソースプラットフォームを提供する。
目的と主観の両面から,本提案したMM-StoryAgentシステムの有効性を検証した。
デモとソースコードは公開されている。
関連論文リスト
- StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - A Character-Centric Creative Story Generation via Imagination [15.345466372805516]
我々はCCI(Character-centric Creative Story Generation via Imagination)と呼ばれる新しいストーリー生成フレームワークを紹介する。
CCIは創造的ストーリー生成のための2つのモジュール、IG(Image-Guided Imagination)とMW(Multi-Writer model)を備えている。
IGモジュールでは,文字や背景,メインプロットといった重要なストーリー要素を視覚的に表現するために,テキスト・ツー・イメージモデルを利用する。
MWモジュールはこれらのストーリー要素を使用して複数のペルソナ記述候補を生成し、ストーリーに挿入する最適なストーリーを選択することにより、物語の豊かさと深さを高める。
論文 参考訳(メタデータ) (2024-09-25T06:54:29Z) - Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models [57.30913211264333]
提案するStory3D-Agentは、提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチである。
プロシージャモデリングを統合することで,複数文字の動作や動きを正確に制御できるだけでなく,多様な装飾的要素も利用できる。
我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。
論文 参考訳(メタデータ) (2024-08-21T17:43:15Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent [11.553884271082127]
本稿では,デジタルストーリーテリングを自動化するためのStoryAgentフレームワークを紹介する。
StoryAgentは手動の介入、インタラクティブなシーンオーケストレーション、物語の一貫性といった重要な問題に取り組む。
その結果、参照ビデオなしでコヒーレントなデジタルストーリーを作成できるフレームワークの能力を実証した。
論文 参考訳(メタデータ) (2024-06-15T03:03:43Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。