Fugu-MT 論文翻訳(概要): Understanding of Emotion Perception from Art

論文の概要: Understanding of Emotion Perception from Art

arxiv url: http://arxiv.org/abs/2110.06486v1
Date: Wed, 13 Oct 2021 04:14:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-15 01:40:54.464930
Title: Understanding of Emotion Perception from Art
Title（参考訳）: 芸術からの感情知覚の理解
Authors: Digbalay Bose, Krishna Somandepalli, Souvik Kundu, Rimita Lahiri, Jonathan Gratch and Shrikanth Narayanan
Abstract要約: 我々は、テキストと視覚の両方を用いて、アートワークによって視聴者が引き起こした感情を理解するという問題を考察する。その結果,MMBTやVisualBERTのようなシングルストリームマルチモーダルトランスフォーマーモデルの方が,画像のみのモデルよりも優れた性能を示した。
参考スコア（独自算出の注目度）: 39.47632069314582
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computational modeling of the emotions evoked by art in humans is a challenging problem because of the subjective and nuanced nature of art and affective signals. In this paper, we consider the above-mentioned problem of understanding emotions evoked in viewers by artwork using both text and visual modalities. Specifically, we analyze images and the accompanying text captions from the viewers expressing emotions as a multimodal classification task. Our results show that single-stream multimodal transformer-based models like MMBT and VisualBERT perform better compared to both image-only models and dual-stream multimodal models having separate pathways for text and image modalities. We also observe improvements in performance for extreme positive and negative emotion classes, when a single-stream model like MMBT is compared with a text-only transformer model like BERT.
Abstract（参考訳）: 人間における芸術によって誘発される感情の計算モデリングは、芸術の主観的かつニュアンス的性質と情緒的シグナルのため、難しい問題である。本稿では,テキストと視覚の両面を用いたアートワークによる視聴者の感情理解の問題について考察する。具体的には,感情を表現した視聴者から画像と付随するテキストキャプションをマルチモーダル分類タスクとして分析する。以上の結果から,MMBTやVisualBERTのようなシングルストリームマルチモーダルトランスフォーマーモデルの方が,テキストや画像のモダリティを分離したデュアルストリームマルチモーダルモデルよりも優れた性能を示した。また、MMBTのような単一ストリームモデルとBERTのようなテキストのみのトランスフォーマーモデルを比較すると、極端な肯定的・否定的な感情クラスの性能向上も観察できる。

関連論文リスト

EmoSEM: Segment and Explain Emotion Stimuli in Visual Art [25.539022846134543]
本稿では,視覚芸術理解における重要な課題に焦点をあてる。芸術的イメージを与えられたモデルは,特定の人間の感情を誘発するピクセル領域をピンポイントする。近年の芸術理解の進歩にもかかわらず、ピクセルレベルの感情理解は依然として二重の課題に直面している。本稿では,感情理解能力を持つセグメンテーションモデルSAMを実現するために,感情刺激・説明モデル(EmoSEM)を提案する。
論文参考訳（メタデータ） (2025-04-20T15:40:00Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。 MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文参考訳（メタデータ） (2024-11-18T02:09:48Z)
Emotional Images: Assessing Emotions in Images and Potential Biases in Generative Models [0.0]
本稿では、生成人工知能(AI)モデルにより生成された画像の感情的誘発における潜在的なバイアスと矛盾について検討する。我々は、AIが生成した画像によって誘発される感情と、それらの画像を作成するために使用されるプロンプトによって誘発される感情を比較した。発見は、AI生成画像が元のプロンプトに関係なく、しばしばネガティブな感情的コンテンツに傾いていることを示している。
論文参考訳（メタデータ） (2024-11-08T21:42:50Z)
Training A Small Emotional Vision Language Model for Visual Art Comprehension [35.273057947865176]
本稿では,視覚芸術を理解するために,小さな視覚言語モデルを開発する。感情モデリングと入出力特徴アライメントによって、小さな感情視覚言語モデル(SEVLM)を構築する。最先端の小型モデルを上回るだけでなく、微調整後のLLaVA 7BやGPT4(V)と競合する。
論文参考訳（メタデータ） (2024-03-17T09:01:02Z)
High-Level Context Representation for Emotion Recognition in Images [4.987022981158291]
画像から高レベルな文脈表現を抽出する手法を提案する。このモデルは、この表現と感情を関連付けるために、1つのキューと1つのエンコードストリームに依存している。我々のアプローチは従来のモデルよりも効率的であり、感情認識に関連する現実の問題に対処するために容易に展開できる。
論文参考訳（メタデータ） (2023-05-05T13:20:41Z)
On the Complementarity of Images and Text for the Expression of Emotions in Social Media [12.616197765581864]
我々は、画像とテキストの関係を自動的に検出するモデル、感情刺激カテゴリー、感情クラスを開発する。これらのタスクがモダリティと画像-テキスト関係の両方を必要とするかどうかを評価するが、ほとんどのカテゴリではテキストだけで十分である。怒りと悲しみの感情はマルチモーダルモデルで最もよく予測されるが、テキストだけでは嫌悪感、喜び、驚きに十分である。
論文参考訳（メタデータ） (2022-02-11T12:33:53Z)
Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文参考訳（メタデータ） (2021-09-22T10:57:51Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)
Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文参考訳（メタデータ） (2021-04-20T16:55:15Z)
Modality-Transferable Emotion Embeddings for Low-Resource Multimodal Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文参考訳（メタデータ） (2020-09-21T06:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。