論文の概要: The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives
- arxiv url: http://arxiv.org/abs/2409.11261v2
- Date: Wed, 18 Sep 2024 09:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 12:04:00.600543
- Title: The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives
- Title(参考訳): ストーリーテリングのアート:動的マルチモーダルナラティブのためのマルチエージェント生成AI
- Authors: Samee Arif, Taimoor Arif, Aamina Jamal Khan, Muhammad Saad Haroon, Agha Ali Raza, Awais Athar,
- Abstract要約: 本稿では,ジェネレーティブ・人工知能(GenAI)を利用した子ども向けのストーリーテリングを支援する教育ツールのコンセプトを紹介する。
このシステムは、GenAIによる物語の共創、テキストから音声への変換、およびテキストからビデオへの生成を組み合わせることで、学習者にとって魅力的な体験を生み出す。
- 参考スコア(独自算出の注目度): 3.5001789247699535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the concept of an education tool that utilizes Generative Artificial Intelligence (GenAI) to enhance storytelling for children. The system combines GenAI-driven narrative co-creation, text-to-speech conversion, and text-to-video generation to produce an engaging experience for learners. We describe the co-creation process, the adaptation of narratives into spoken words using text-to-speech models, and the transformation of these narratives into contextually relevant visuals through text-to-video technology. Our evaluation covers the linguistics of the generated stories, the text-to-speech conversion quality, and the accuracy of the generated visuals.
- Abstract(参考訳): 本稿では,ジェネレーティブ・人工知能(GenAI)を利用した子ども向けのストーリーテリングを支援する教育ツールのコンセプトを紹介する。
このシステムは、GenAIによる物語の共創、テキストから音声への変換、およびテキストからビデオへの生成を組み合わせることで、学習者にとって魅力的な体験を生み出す。
本稿では,共同創造過程,テキスト音声モデルを用いた話し言葉への物語の適応,およびテキスト音声技術による文脈関連視覚への変換について述べる。
本評価では,生成した物語の言語学,テキストから音声への変換品質,生成した視覚の精度について検討する。
関連論文リスト
- From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent [11.553884271082127]
本稿では,デジタルストーリーテリングを自動化するためのStoryAgentフレームワークを紹介する。
StoryAgentは手動の介入、インタラクティブなシーンオーケストレーション、物語の一貫性といった重要な問題に取り組む。
その結果、参照ビデオなしでコヒーレントなデジタルストーリーを作成できるフレームワークの能力を実証した。
論文 参考訳(メタデータ) (2024-06-15T03:03:43Z) - Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer
Learning [3.5032870024762386]
本稿では,Fastpitch text-to-speech(TTS)モデルを用いて,高品質な合成子音声を生成する手法を提案する。
このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。
実子声と合成子声の間に有意な相関が認められた客観的評価を行った。
論文 参考訳(メタデータ) (2023-11-07T19:31:44Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Visualize Before You Write: Imagination-Guided Open-Ended Text
Generation [68.96699389728964]
我々は、機械生成画像を用いて、オープンエンドテキスト生成における言語モデルをガイドするiNLGを提案する。
オープンエンドテキスト生成タスクにおけるiNLGの有効性について実験と解析を行った。
論文 参考訳(メタデータ) (2022-10-07T18:01:09Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - FairyTailor: A Multimodal Generative Framework for Storytelling [33.39639788612019]
本稿では,人間とループによるビジュアルストーリーのコクリエーションのためのシステムとデモ,FairyTailorを紹介する。
ユーザは、生成されたテキストを織り、入力で検索した画像を織り込むことで、結束した子供の妖精を作ることができる。
我々の知る限り、これはテキストと画像の両方のインタラクティブなコフォームを可能にするマルチモーダルなストーリー生成のための最初の動的ツールである。
論文 参考訳(メタデータ) (2021-07-13T02:45:08Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Text2Video: Text-driven Talking-head Video Synthesis with Phonetic
Dictionary [10.590649169151055]
テキストから映像を合成するための新しいアプローチを紹介します。
この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。
音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
論文 参考訳(メタデータ) (2021-04-29T19:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。