論文の概要: From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent
- arxiv url: http://arxiv.org/abs/2406.10478v1
- Date: Sat, 15 Jun 2024 03:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:12:44.389544
- Title: From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent
- Title(参考訳): 言葉から世界へ:コミュニケーティブLLMエージェントによるワンライン・プロンプトから没入型マルチモーダル・デジタルストーリーへ
- Authors: Samuel S. Sohn, Danrui Li, Sen Zhang, Che-Jui Chang, Mubbasir Kapadia,
- Abstract要約: 本稿では,デジタルストーリーテリングを自動化するためのStoryAgentフレームワークを紹介する。
StoryAgentは手動の介入、インタラクティブなシーンオーケストレーション、物語の一貫性といった重要な問題に取り組む。
その結果、参照ビデオなしでコヒーレントなデジタルストーリーを作成できるフレームワークの能力を実証した。
- 参考スコア(独自算出の注目度): 11.553884271082127
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Digital storytelling, essential in entertainment, education, and marketing, faces challenges in production scalability and flexibility. The StoryAgent framework, introduced in this paper, utilizes Large Language Models and generative tools to automate and refine digital storytelling. Employing a top-down story drafting and bottom-up asset generation approach, StoryAgent tackles key issues such as manual intervention, interactive scene orchestration, and narrative consistency. This framework enables efficient production of interactive and consistent narratives across multiple modalities, democratizing content creation and enhancing engagement. Our results demonstrate the framework's capability to produce coherent digital stories without reference videos, marking a significant advancement in automated digital storytelling.
- Abstract(参考訳): エンターテイメント、教育、マーケティングに不可欠なデジタルストーリーテリングは、プロダクションのスケーラビリティと柔軟性の課題に直面している。
本稿では,大規模言語モデルと生成ツールを用いて,デジタルストーリーテリングの自動化と洗練を行う。
トップダウンのストーリードラフトとボトムアップのアセット生成アプローチを採用して、手動の介入、インタラクティブなシーンオーケストレーション、物語の一貫性といった重要な問題に取り組む。
このフレームワークは、インタラクティブで一貫した物語を複数のモダリティにわたって効率的に作成し、コンテンツの創造を民主化し、エンゲージメントを高める。
提案手法は,参照ビデオを使わずにコヒーレントなデジタルストーリーを作成できることを示し,自動化されたデジタルストーリーテリングの大幅な進歩を示すものである。
関連論文リスト
- StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Agents' Room: Narrative Generation through Multi-step Collaboration [54.98886593802834]
本稿では,物語の執筆を特殊エージェントが取り組んだサブタスクに分解する,物語理論に触発された世代フレームワークを提案する。
エージェントの部屋は,専門的評価者が好むストーリーをベースラインシステムより生成することを示す。
論文 参考訳(メタデータ) (2024-10-03T15:44:42Z) - Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models [57.30913211264333]
提案するStory3D-Agentは、提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチである。
プロシージャモデリングを統合することで,複数文字の動作や動きを正確に制御できるだけでなく,多様な装飾的要素も利用できる。
我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。
論文 参考訳(メタデータ) (2024-08-21T17:43:15Z) - DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts [27.218934418961197]
データストーリ生成のための新しいタスクと,さまざまなソースから1,449のストーリを含むベンチマークを導入する。
2つのLLMエージェントを用いたマルチエージェントフレームワークを提案する。
我々のエージェント・フレームワークは一般的にモデルベースと人的評価の両方において非エージェント・フレームワークよりも優れていますが、結果はデータ・ストーリー・ジェネレーションにおけるユニークな課題を明らかにします。
論文 参考訳(メタデータ) (2024-08-09T21:31:33Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Improving Visual Storytelling with Multimodal Large Language Models [1.325953054381901]
本稿では,大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)を活用した新しいアプローチを提案する。
様々な視覚的ストーリーからなる新しいデータセットを導入し、詳細なキャプションとマルチモーダル要素を付加する。
本手法では,教師付き学習と強化学習を組み合わせてモデルを微調整し,物語生成能力を向上する。
論文 参考訳(メタデータ) (2024-07-02T18:13:55Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Cue Me In: Content-Inducing Approaches to Interactive Story Generation [74.09575609958743]
本研究では,対話型物語生成の課題に焦点をあてる。
本稿では、この追加情報を効果的に活用するための2つのコンテンツ誘導手法を提案する。
自動評価と人的評価の両方による実験結果から,これらの手法がよりトポロジ的な一貫性とパーソナライズされたストーリーを生み出すことが示された。
論文 参考訳(メタデータ) (2020-10-20T00:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。