論文の概要: From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent
- arxiv url: http://arxiv.org/abs/2406.10478v1
- Date: Sat, 15 Jun 2024 03:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:12:44.389544
- Title: From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent
- Title(参考訳): 言葉から世界へ:コミュニケーティブLLMエージェントによるワンライン・プロンプトから没入型マルチモーダル・デジタルストーリーへ
- Authors: Samuel S. Sohn, Danrui Li, Sen Zhang, Che-Jui Chang, Mubbasir Kapadia,
- Abstract要約: 本稿では,デジタルストーリーテリングを自動化するためのStoryAgentフレームワークを紹介する。
StoryAgentは手動の介入、インタラクティブなシーンオーケストレーション、物語の一貫性といった重要な問題に取り組む。
その結果、参照ビデオなしでコヒーレントなデジタルストーリーを作成できるフレームワークの能力を実証した。
- 参考スコア(独自算出の注目度): 11.553884271082127
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Digital storytelling, essential in entertainment, education, and marketing, faces challenges in production scalability and flexibility. The StoryAgent framework, introduced in this paper, utilizes Large Language Models and generative tools to automate and refine digital storytelling. Employing a top-down story drafting and bottom-up asset generation approach, StoryAgent tackles key issues such as manual intervention, interactive scene orchestration, and narrative consistency. This framework enables efficient production of interactive and consistent narratives across multiple modalities, democratizing content creation and enhancing engagement. Our results demonstrate the framework's capability to produce coherent digital stories without reference videos, marking a significant advancement in automated digital storytelling.
- Abstract(参考訳): エンターテイメント、教育、マーケティングに不可欠なデジタルストーリーテリングは、プロダクションのスケーラビリティと柔軟性の課題に直面している。
本稿では,大規模言語モデルと生成ツールを用いて,デジタルストーリーテリングの自動化と洗練を行う。
トップダウンのストーリードラフトとボトムアップのアセット生成アプローチを採用して、手動の介入、インタラクティブなシーンオーケストレーション、物語の一貫性といった重要な問題に取り組む。
このフレームワークは、インタラクティブで一貫した物語を複数のモダリティにわたって効率的に作成し、コンテンツの創造を民主化し、エンゲージメントを高める。
提案手法は,参照ビデオを使わずにコヒーレントなデジタルストーリーを作成できることを示し,自動化されたデジタルストーリーテリングの大幅な進歩を示すものである。
関連論文リスト
- SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Improving Visual Storytelling with Multimodal Large Language Models [1.325953054381901]
本稿では,大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)を活用した新しいアプローチを提案する。
様々な視覚的ストーリーからなる新しいデータセットを導入し、詳細なキャプションとマルチモーダル要素を付加する。
本手法では,教師付き学習と強化学習を組み合わせてモデルを微調整し,物語生成能力を向上する。
論文 参考訳(メタデータ) (2024-07-02T18:13:55Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Inferring the Reader: Guiding Automated Story Generation with
Commonsense Reasoning [12.264880519328353]
生成プロセスにコモンセンス推論を導入するフレームワークであるCommonsense-inference Augmented Neural StoryTelling (CAST)を紹介する。
我々のCAST手法は,既存のモデルよりも,一文字と二文字の両方で,一貫性があり,オントピー的,楽しむことができる。
論文 参考訳(メタデータ) (2021-05-04T06:40:33Z) - Collaborative Storytelling with Large-scale Neural Language Models [6.0794985566317425]
我々は、人工知能エージェントと人が協力して、交代で追加することでユニークなストーリーを作るという、協調的なストーリーテリングのタスクを紹介します。
本稿では,人間ストーリーテラーと協調して物語を創り出す共同ストーリーテリングシステムについて述べる。
論文 参考訳(メタデータ) (2020-11-20T04:36:54Z) - Cue Me In: Content-Inducing Approaches to Interactive Story Generation [74.09575609958743]
本研究では,対話型物語生成の課題に焦点をあてる。
本稿では、この追加情報を効果的に活用するための2つのコンテンツ誘導手法を提案する。
自動評価と人的評価の両方による実験結果から,これらの手法がよりトポロジ的な一貫性とパーソナライズされたストーリーを生み出すことが示された。
論文 参考訳(メタデータ) (2020-10-20T00:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。