論文の概要: FairyTailor: A Multimodal Generative Framework for Storytelling
- arxiv url: http://arxiv.org/abs/2108.04324v1
- Date: Tue, 13 Jul 2021 02:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-15 16:25:52.058605
- Title: FairyTailor: A Multimodal Generative Framework for Storytelling
- Title(参考訳): FairyTailor: ストーリーテリングのためのマルチモーダルな生成フレームワーク
- Authors: Eden Bensaid, Mauro Martino, Benjamin Hoover, Jacob Andreas and
Hendrik Strobelt
- Abstract要約: 本稿では,人間とループによるビジュアルストーリーのコクリエーションのためのシステムとデモ,FairyTailorを紹介する。
ユーザは、生成されたテキストを織り、入力で検索した画像を織り込むことで、結束した子供の妖精を作ることができる。
我々の知る限り、これはテキストと画像の両方のインタラクティブなコフォームを可能にするマルチモーダルなストーリー生成のための最初の動的ツールである。
- 参考スコア(独自算出の注目度): 33.39639788612019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Storytelling is an open-ended task that entails creative thinking and
requires a constant flow of ideas. Natural language generation (NLG) for
storytelling is especially challenging because it requires the generated text
to follow an overall theme while remaining creative and diverse to engage the
reader. In this work, we introduce a system and a web-based demo, FairyTailor,
for human-in-the-loop visual story co-creation. Users can create a cohesive
children's fairytale by weaving generated texts and retrieved images with their
input. FairyTailor adds another modality and modifies the text generation
process to produce a coherent and creative sequence of text and images. To our
knowledge, this is the first dynamic tool for multimodal story generation that
allows interactive co-formation of both texts and images. It allows users to
give feedback on co-created stories and share their results.
- Abstract(参考訳): ストーリーテリングは創造的な思考を伴い、常にアイデアの流れを必要とするオープンエンドのタスクです。
ストーリーテリングのための自然言語生成(nlg: natural language generation)は特に困難である。
本稿では,人間とループのビジュアルストーリーを共同制作するためのシステムと web ベースのデモ,fairytailor を紹介する。
ユーザーは、生成したテキストと検索した画像を入力で織り込むことで、結束した子供のおとぎ話を作ることができる。
FairyTailorは別のモダリティを追加し、テキスト生成プロセスを変更して、一貫性があり創造的なテキストと画像のシーケンスを生成する。
私たちの知る限り、これはテキストと画像の両方のインタラクティブな共同形成を可能にする、マルチモーダルストーリー生成のための最初の動的ツールです。
ユーザーは共同制作したストーリーについてフィードバックし、結果を共有できる。
関連論文リスト
- A Character-Centric Creative Story Generation via Imagination [15.345466372805516]
我々はCCI(Character-centric Creative Story Generation via Imagination)と呼ばれる新しいストーリー生成フレームワークを紹介する。
CCIは創造的ストーリー生成のための2つのモジュール、IG(Image-Guided Imagination)とMW(Multi-Writer model)を備えている。
IGモジュールでは,文字や背景,メインプロットといった重要なストーリー要素を視覚的に表現するために,テキスト・ツー・イメージモデルを利用する。
MWモジュールはこれらのストーリー要素を使用して複数のペルソナ記述候補を生成し、ストーリーに挿入する最適なストーリーを選択することにより、物語の豊かさと深さを高める。
論文 参考訳(メタデータ) (2024-09-25T06:54:29Z) - The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives [3.5001789247699535]
本稿では,ジェネレーティブ・人工知能(GenAI)を利用した子ども向けのストーリーテリングを支援する教育ツールのコンセプトを紹介する。
このシステムは、GenAIによる物語の共創、テキストから音声への変換、およびテキストからビデオへの生成を組み合わせることで、学習者にとって魅力的な体験を生み出す。
論文 参考訳(メタデータ) (2024-09-17T15:10:23Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Visual Story Generation Based on Emotion and Keywords [5.3860505447668015]
この研究は、ユーザとビジュアルストーリーを共同作成するためのストーリー生成パイプラインを提案する。
パイプラインには、物語と画像生成の2つの部分が含まれている。
論文 参考訳(メタデータ) (2023-01-07T03:56:49Z) - Visualize Before You Write: Imagination-Guided Open-Ended Text
Generation [68.96699389728964]
我々は、機械生成画像を用いて、オープンエンドテキスト生成における言語モデルをガイドするiNLGを提案する。
オープンエンドテキスト生成タスクにおけるiNLGの有効性について実験と解析を行った。
論文 参考訳(メタデータ) (2022-10-07T18:01:09Z) - Event Transition Planning for Open-ended Text Generation [55.729259805477376]
オープンエンドテキスト生成タスクは、事前コンテキストに制限されたコヒーレントな継続を生成するためにモデルを必要とする。
オープンエンドテキスト生成におけるイベントを明示的にアレンジする新しい2段階手法を提案する。
我々のアプローチは、特別に訓練された粗大なアルゴリズムとして理解することができる。
論文 参考訳(メタデータ) (2022-04-20T13:37:51Z) - Telling Creative Stories Using Generative Visual Aids [52.623545341588304]
私たちはライターに、開始プロンプトからクリエイティブなストーリーを書くように頼み、同じプロンプトから生成するAIモデルによって生成されたビジュアルを提供した。
コントロールグループと比較すると、ビジュアルをストーリー・ライティング・アシストとして使用した作家は、より創造的で、オリジナルで、完全で、視覚的にできるストーリーを著した。
発見は、AIによる横断的なモダリティ入力は、人間とAIの共創において創造性の異なる側面に利益をもたらすが、収束する思考を妨げることを示している。
論文 参考訳(メタデータ) (2021-10-27T23:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。