論文の概要: ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer
- arxiv url: http://arxiv.org/abs/2202.07305v1
- Date: Tue, 15 Feb 2022 10:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 22:51:58.524025
- Title: ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer
- Title(参考訳): ViNTER:感情認識型トランスを用いたイメージナラティブ生成
- Authors: Kohei Uehara, Yusuke Mori, Yusuke Mukuta, Tatsuya Harada
- Abstract要約: 様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
- 参考スコア(独自算出の注目度): 59.05857591535986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image narrative generation describes the creation of stories regarding the
content of image data from a subjective viewpoint. Given the importance of the
subjective feelings of writers, characters, and readers in storytelling, image
narrative generation methods must consider human emotion, which is their major
difference from descriptive caption generation tasks. The development of
automated methods to generate story-like text associated with images may be
considered to be of considerable social significance, because stories serve
essential functions both as entertainment and also for many practical purposes
such as education and advertising. In this study, we propose a model called
ViNTER (Visual Narrative Transformer with Emotion arc Representation) to
generate image narratives that focus on time series representing varying
emotions as "emotion arcs," to take advantage of recent advances in multimodal
Transformer-based pre-trained models. We present experimental results of both
manual and automatic evaluations, which demonstrate the effectiveness of the
proposed emotion-aware approach to image narrative generation.
- Abstract(参考訳): 画像ナラティブ生成は、主観的視点から画像データの内容に関するストーリーの作成を記述する。
ストーリーテリングにおいて、作家、登場人物、読者の主観的な感情の重要性から、イメージナラティブ生成手法は人間の感情を考慮すべきであり、これは記述的キャプション生成タスクとの主な違いである。
画像に関連付けられた物語的テキストを自動生成する手法の開発は、エンターテイメントや教育や広告など多くの実用目的のために重要な機能を持つため、社会的な意味を持つと考えられる。
本研究では,多変圧器を用いた事前学習モデルにおける最近の進歩を活かし,多様な感情を表す時系列を「感情アーク」として表現する画像ナラティブを生成するvinter(visual narrative transformer with emotion arc representation)モデルを提案する。
本稿では,手動評価と自動評価を併用し,画像物語生成に対する感情認識アプローチの有効性を実証する実験結果を示す。
関連論文リスト
- Imagining from Images with an AI Storytelling Tool [0.27309692684728604]
提案手法は,GPT-4oの視覚的コンテンツを解釈し,エンゲージメントなストーリーを作成するためのマルチモーダル機能について検討する。
この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。
論文 参考訳(メタデータ) (2024-08-21T10:49:15Z) - Envisioning Narrative Intelligence: A Creative Visual Storytelling
Anthology [7.962160810367763]
この創造的なビジュアルなストーリーテリングプロセスで見られるバリエーションを特徴付ける5つのテーマを提示する。
我々は、計算的なビジュアルストーリーテリングのための物語知能基準を、創造的で、信頼性があり、表現力があり、基礎があり、責任があるものとして想定する。
論文 参考訳(メタデータ) (2023-10-06T18:47:20Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - Visual Story Generation Based on Emotion and Keywords [5.3860505447668015]
この研究は、ユーザとビジュアルストーリーを共同作成するためのストーリー生成パイプラインを提案する。
パイプラインには、物語と画像生成の2つの部分が含まれている。
論文 参考訳(メタデータ) (2023-01-07T03:56:49Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - ArtEmis: Affective Language for Visual Art [46.643106054408285]
我々は視覚アートワークによって引き起こされる情緒体験に焦点を当てる。
ある画像に対して感じている支配的な感情を示すために、注釈を付けます。
これにより、目的コンテンツとイメージの感情的影響の両方に対して、リッチな信号セットが導かれる。
論文 参考訳(メタデータ) (2021-01-19T01:03:40Z) - Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling [86.42719129731907]
視覚的ギャップを埋めるストーリーラインを明示的に学習することを提案する。
私たちは、欠落した写真であっても、ネットワークをトレーニングして、完全なプラウティブルなストーリーを作り出す。
実験では,本手法とネットワーク設計がストーリーテリングに有効であることを示す。
論文 参考訳(メタデータ) (2020-02-03T14:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。