論文の概要: Visual Story Generation Based on Emotion and Keywords
- arxiv url: http://arxiv.org/abs/2301.02777v1
- Date: Sat, 7 Jan 2023 03:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:29:59.174766
- Title: Visual Story Generation Based on Emotion and Keywords
- Title(参考訳): 感情とキーワードに基づくビジュアルストーリー生成
- Authors: Yuetian Chen, Ruohua Li, Bowen Shi, Peiru Liu, Mei Si
- Abstract要約: この研究は、ユーザとビジュアルストーリーを共同作成するためのストーリー生成パイプラインを提案する。
パイプラインには、物語と画像生成の2つの部分が含まれている。
- 参考スコア(独自算出の注目度): 5.3860505447668015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated visual story generation aims to produce stories with corresponding
illustrations that exhibit coherence, progression, and adherence to characters'
emotional development. This work proposes a story generation pipeline to
co-create visual stories with the users. The pipeline allows the user to
control events and emotions on the generated content. The pipeline includes two
parts: narrative and image generation. For narrative generation, the system
generates the next sentence using user-specified keywords and emotion labels.
For image generation, diffusion models are used to create a visually appealing
image corresponding to each generated sentence. Further, object recognition is
applied to the generated images to allow objects in these images to be
mentioned in future story development.
- Abstract(参考訳): 自動ビジュアルストーリー生成は、キャラクターの感情的発達に対する一貫性、進行、順応性を示す、対応するイラストのストーリーを作成することを目的としている。
本研究は,ユーザとビジュアルストーリーを共同生成するストーリー生成パイプラインを提案する。
パイプラインにより、ユーザは生成されたコンテンツ上のイベントや感情を制御できる。
パイプラインには、物語と画像生成の2つの部分が含まれている。
ナラティブ生成では,ユーザが指定したキーワードと感情ラベルを用いて次の文を生成する。
画像生成には、各生成文に対応する視覚的にアピールする画像を作成するために拡散モデルを用いる。
さらに、生成した画像にオブジェクト認識を適用し、これらの画像内のオブジェクトを将来のストーリー開発で言及できるようにする。
関連論文リスト
- Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - Imagining from Images with an AI Storytelling Tool [0.27309692684728604]
提案手法は,GPT-4oの視覚的コンテンツを解釈し,エンゲージメントなストーリーを作成するためのマルチモーダル機能について検討する。
この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。
論文 参考訳(メタデータ) (2024-08-21T10:49:15Z) - MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual
Storytelling via Multi-Layered Semantic-Aware Denoising [42.20750912837316]
MagicScrollはプログレッシブ拡散に基づく画像生成フレームワークであり、新しいセマンティック・アウェア・デノナイジング・プロセスを備えている。
オブジェクト、シーン、背景のレベルで生成された画像を、テキスト、画像、レイアウト条件できめ細かく制御できる。
物語のテキストの整合性、視覚的コヒーレンスの改善、オーディエンスへのエンゲージメントなど、有望な成果が紹介されている。
論文 参考訳(メタデータ) (2023-12-18T03:09:05Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Visual Writing Prompts: Character-Grounded Story Generation with Curated
Image Sequences [67.61940880927708]
画像ベースのストーリー生成に関する現在の研究は、既存の画像シーケンスコレクションが背後にコヒーレントなプロットを持たないという事実に悩まされている。
我々は、新しい画像グラウンドデータセット、Visual Writing Prompts (VWP) を作成することで、ビジュアルストーリー生成を改善する。
VWPには5~10枚の画像を含む約2Kの映像が選択されている。
画像シーケンスは、画像シーケンスと対応する画像シーケンスから接地文字のセットを与えられたクラウドソーシングを介して収集された合計12Kストーリーと整列する。
論文 参考訳(メタデータ) (2023-01-20T13:38:24Z) - Visualize Before You Write: Imagination-Guided Open-Ended Text
Generation [68.96699389728964]
我々は、機械生成画像を用いて、オープンエンドテキスト生成における言語モデルをガイドするiNLGを提案する。
オープンエンドテキスト生成タスクにおけるiNLGの有効性について実験と解析を行った。
論文 参考訳(メタデータ) (2022-10-07T18:01:09Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - FairyTailor: A Multimodal Generative Framework for Storytelling [33.39639788612019]
本稿では,人間とループによるビジュアルストーリーのコクリエーションのためのシステムとデモ,FairyTailorを紹介する。
ユーザは、生成されたテキストを織り、入力で検索した画像を織り込むことで、結束した子供の妖精を作ることができる。
我々の知る限り、これはテキストと画像の両方のインタラクティブなコフォームを可能にするマルチモーダルなストーリー生成のための最初の動的ツールである。
論文 参考訳(メタデータ) (2021-07-13T02:45:08Z) - Cue Me In: Content-Inducing Approaches to Interactive Story Generation [74.09575609958743]
本研究では,対話型物語生成の課題に焦点をあてる。
本稿では、この追加情報を効果的に活用するための2つのコンテンツ誘導手法を提案する。
自動評価と人的評価の両方による実験結果から,これらの手法がよりトポロジ的な一貫性とパーソナライズされたストーリーを生み出すことが示された。
論文 参考訳(メタデータ) (2020-10-20T00:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。