論文の概要: AesopAgent: Agent-driven Evolutionary System on Story-to-Video
Production
- arxiv url: http://arxiv.org/abs/2403.07952v1
- Date: Tue, 12 Mar 2024 02:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:27:53.871074
- Title: AesopAgent: Agent-driven Evolutionary System on Story-to-Video
Production
- Title(参考訳): AesopAgent: ストーリー・トゥ・ビデオのエージェント駆動進化システム
生産
- Authors: Jiuniu Wang, Zehua Du, Yuyuan Zhao, Bo Yuan, Kexiang Wang, Jian Liang,
Yaxi Zhao, Yihen Lu, Gengliang Li, Junlong Gao, Xin Tu, Zhenyu Guo
- Abstract要約: AesopAgentは、ストーリー・ツー・ビデオ制作のためのエージェント駆動進化システムである。
このシステムは統合されたフレームワークに複数の生成機能を統合し、個々のユーザがこれらのモジュールを容易に活用できるようにする。
私たちのAesopAgentは、以前のビジュアルストーリーテリングの多くの作品と比較して最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 34.665965986359645
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The Agent and AIGC (Artificial Intelligence Generated Content) technologies
have recently made significant progress. We propose AesopAgent, an Agent-driven
Evolutionary System on Story-to-Video Production. AesopAgent is a practical
application of agent technology for multimodal content generation. The system
integrates multiple generative capabilities within a unified framework, so that
individual users can leverage these modules easily. This innovative system
would convert user story proposals into scripts, images, and audio, and then
integrate these multimodal contents into videos. Additionally, the animating
units (e.g., Gen-2 and Sora) could make the videos more infectious. The
AesopAgent system could orchestrate task workflow for video generation,
ensuring that the generated video is both rich in content and coherent. This
system mainly contains two layers, i.e., the Horizontal Layer and the Utility
Layer. In the Horizontal Layer, we introduce a novel RAG-based evolutionary
system that optimizes the whole video generation workflow and the steps within
the workflow. It continuously evolves and iteratively optimizes workflow by
accumulating expert experience and professional knowledge, including optimizing
the LLM prompts and utilities usage. The Utility Layer provides multiple
utilities, leading to consistent image generation that is visually coherent in
terms of composition, characters, and style. Meanwhile, it provides audio and
special effects, integrating them into expressive and logically arranged
videos. Overall, our AesopAgent achieves state-of-the-art performance compared
with many previous works in visual storytelling. Our AesopAgent is designed for
convenient service for individual users, which is available on the following
page: https://aesopai.github.io/.
- Abstract(参考訳): エージェントとAIGC(Artificial Intelligence Generated Content)技術は最近大きな進歩を遂げた。
本稿では,ストーリー・ツー・ビデオ制作のためのエージェント駆動進化システムであるAesopAgentを提案する。
AesopAgentはマルチモーダルコンテンツ生成のためのエージェント技術の実用的応用である。
このシステムは統合されたフレームワークに複数の生成機能を統合し、個々のユーザがこれらのモジュールを容易に活用できるようにする。
この革新的なシステムは、ユーザーストーリーの提案をスクリプト、画像、オーディオに変換し、これらのマルチモーダルコンテンツをビデオに統合する。
さらに、アニメーションユニット(例:Gen-2、Sora)は、ビデオに感染しやすくする。
AesopAgentシステムは、ビデオ生成のためのタスクワークフローをオーケストレーションし、生成されたビデオがコンテンツと一貫性の両方に富んでいることを保証する。
このシステムは、主に水平層とユーティリティ層という2つの層を含んでいる。
水平層では、ビデオ生成ワークフロー全体とワークフロー内のステップを最適化する新しいRAGベースの進化システムを導入する。
LLMプロンプトの最適化やユーティリティの使用など、専門家の経験と専門知識を蓄積することで、ワークフローを継続的に進化させ、反復的に最適化する。
Utility Layerは複数のユーティリティを提供し、コンポジション、キャラクタ、スタイルの面で視覚的に一貫性のある画像生成につながる。
一方、音声と特殊効果を提供し、それらを表現的かつ論理的に配置されたビデオに統合する。
私たちのAesopAgentは、これまでのビジュアルストーリーテリングの多くの作品と比較して、最先端のパフォーマンスを実現しています。
私たちのAesopAgentは、個々のユーザーにとって便利なサービスとして設計されています。
関連論文リスト
- StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。
我々は、LLMベースのフレームワークであるGenAgentを紹介した。
その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation [4.147294190096431]
視覚大言語モデル(VLM)エージェントの協調に基づく自動合成ビデオ生成パイプラインを提案する。
ビデオの自然言語記述が与えられた後、複数のVLMエージェントが生成パイプラインの様々なプロセスを自動指揮する。
生成したビデオは、ビデオ品質と命令追従性能の5つの指標において、商用ビデオ生成モデルよりも優れた品質を示す。
論文 参考訳(メタデータ) (2024-08-19T23:31:02Z) - Reframe Anything: LLM Agent for Open World Video Reframing [0.8424099022563256]
ビデオリフレーミングのためのビジュアルコンテンツを再構成するAIベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。
RAVAは、ユーザーの指示やビデオコンテンツを解釈する知覚、アスペクト比やフレーミング戦略を決定する計画、最終映像を作成するための編集ツールを呼び出す実行の3段階からなる。
我々の実験は、AIを利用したビデオ編集ツールとしての可能性を実証し、ビデオの有能なオブジェクト検出と現実世界のリフレーミングタスクにおけるRAVAの有効性を検証した。
論文 参考訳(メタデータ) (2024-03-10T03:29:56Z) - Dynamic and Super-Personalized Media Ecosystem Driven by Generative AI:
Unpredictable Plays Never Repeating The Same [5.283018645939415]
本稿では,人工知能(AI)ビデオジェネレータを利用したメディアサービスモデルを提案する。
フレームワークにセマンティックなプロセスを導入し、配信ネットワークがコンテンツジェネレータを誘導するサービス要素を提供できるようにします。
生成AIのランダムな性質によって、ユーザーは超個人化されたサービスを体験できる。
論文 参考訳(メタデータ) (2024-02-19T04:39:30Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。