論文の概要: Understanding of Emotion Perception from Art
- arxiv url: http://arxiv.org/abs/2110.06486v1
- Date: Wed, 13 Oct 2021 04:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 01:40:54.464930
- Title: Understanding of Emotion Perception from Art
- Title(参考訳): 芸術からの感情知覚の理解
- Authors: Digbalay Bose, Krishna Somandepalli, Souvik Kundu, Rimita Lahiri,
Jonathan Gratch and Shrikanth Narayanan
- Abstract要約: 我々は、テキストと視覚の両方を用いて、アートワークによって視聴者が引き起こした感情を理解するという問題を考察する。
その結果,MMBTやVisualBERTのようなシングルストリームマルチモーダルトランスフォーマーモデルの方が,画像のみのモデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 39.47632069314582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational modeling of the emotions evoked by art in humans is a
challenging problem because of the subjective and nuanced nature of art and
affective signals. In this paper, we consider the above-mentioned problem of
understanding emotions evoked in viewers by artwork using both text and visual
modalities. Specifically, we analyze images and the accompanying text captions
from the viewers expressing emotions as a multimodal classification task. Our
results show that single-stream multimodal transformer-based models like MMBT
and VisualBERT perform better compared to both image-only models and
dual-stream multimodal models having separate pathways for text and image
modalities. We also observe improvements in performance for extreme positive
and negative emotion classes, when a single-stream model like MMBT is compared
with a text-only transformer model like BERT.
- Abstract(参考訳): 人間における芸術によって誘発される感情の計算モデリングは、芸術の主観的かつニュアンス的性質と情緒的シグナルのため、難しい問題である。
本稿では,テキストと視覚の両面を用いたアートワークによる視聴者の感情理解の問題について考察する。
具体的には,感情を表現した視聴者から画像と付随するテキストキャプションをマルチモーダル分類タスクとして分析する。
以上の結果から,MMBTやVisualBERTのようなシングルストリームマルチモーダルトランスフォーマーモデルの方が,テキストや画像のモダリティを分離したデュアルストリームマルチモーダルモデルよりも優れた性能を示した。
また、MMBTのような単一ストリームモデルとBERTのようなテキストのみのトランスフォーマーモデルを比較すると、極端な肯定的・否定的な感情クラスの性能向上も観察できる。
関連論文リスト
- Training A Small Emotional Vision Language Model for Visual Art Comprehension [35.273057947865176]
本稿では,視覚芸術を理解するために,小さな視覚言語モデルを開発する。
感情モデリングと入出力特徴アライメントによって、小さな感情視覚言語モデル(SEVLM)を構築する。
最先端の小型モデルを上回るだけでなく、微調整後のLLaVA 7BやGPT4(V)と競合する。
論文 参考訳(メタデータ) (2024-03-17T09:01:02Z) - High-Level Context Representation for Emotion Recognition in Images [4.987022981158291]
画像から高レベルな文脈表現を抽出する手法を提案する。
このモデルは、この表現と感情を関連付けるために、1つのキューと1つのエンコードストリームに依存している。
我々のアプローチは従来のモデルよりも効率的であり、感情認識に関連する現実の問題に対処するために容易に展開できる。
論文 参考訳(メタデータ) (2023-05-05T13:20:41Z) - Contextually-rich human affect perception using multimodal scene
information [36.042369831043686]
我々は、事前学習された視覚言語(VLN)モデルを利用して、画像から前景の文脈の記述を抽出する。
本研究では,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。
自然のシーンとテレビ番組に関連する2つのデータセットに対して,モジュール設計の有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T07:46:41Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - On the Complementarity of Images and Text for the Expression of Emotions
in Social Media [12.616197765581864]
我々は、画像とテキストの関係を自動的に検出するモデル、感情刺激カテゴリー、感情クラスを開発する。
これらのタスクがモダリティと画像-テキスト関係の両方を必要とするかどうかを評価するが、ほとんどのカテゴリではテキストだけで十分である。
怒りと悲しみの感情はマルチモーダルモデルで最もよく予測されるが、テキストだけでは嫌悪感、喜び、驚きに十分である。
論文 参考訳(メタデータ) (2022-02-11T12:33:53Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。