論文の概要: On the Complementarity of Images and Text for the Expression of Emotions
in Social Media
- arxiv url: http://arxiv.org/abs/2202.07427v1
- Date: Fri, 11 Feb 2022 12:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-19 08:35:17.218607
- Title: On the Complementarity of Images and Text for the Expression of Emotions
in Social Media
- Title(参考訳): ソーシャルメディアにおける感情表現のための画像とテキストの相補性について
- Authors: Anna Khlyzova and Carina Silberer and Roman Klinger
- Abstract要約: 我々は、画像とテキストの関係を自動的に検出するモデル、感情刺激カテゴリー、感情クラスを開発する。
これらのタスクがモダリティと画像-テキスト関係の両方を必要とするかどうかを評価するが、ほとんどのカテゴリではテキストだけで十分である。
怒りと悲しみの感情はマルチモーダルモデルで最もよく予測されるが、テキストだけでは嫌悪感、喜び、驚きに十分である。
- 参考スコア(独自算出の注目度): 12.616197765581864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authors of posts in social media communicate their emotions and what causes
them with text and images. While there is work on emotion and stimulus
detection for each modality separately, it is yet unknown if the modalities
contain complementary emotion information in social media. We aim at filling
this research gap and contribute a novel, annotated corpus of English
multimodal Reddit posts. On this resource, we develop models to automatically
detect the relation between image and text, an emotion stimulus category and
the emotion class. We evaluate if these tasks require both modalities and find
for the image-text relations, that text alone is sufficient for most categories
(complementary, illustrative, opposing): the information in the text allows to
predict if an image is required for emotion understanding. The emotions of
anger and sadness are best predicted with a multimodal model, while text alone
is sufficient for disgust, joy, and surprise. Stimuli depicted by objects,
animals, food, or a person are best predicted by image-only models, while
multimodal models are most effective on art, events, memes, places, or
screenshots.
- Abstract(参考訳): ソーシャルメディアにおける投稿の著者は、自分の感情と、それらがテキストや画像で何を引き起こすかを伝える。
各モダリティごとに感情や刺激を検出する研究があるが、ソーシャルメディアに相補的な感情情報が含まれているかどうかは不明だ。
我々は、この研究ギャップを埋め、英語のマルチモーダルReddit投稿の注釈付きコーパスを提供する。
本研究では,画像とテキストの関係,感情刺激カテゴリー,感情クラスを自動的に検出するモデルを開発した。
これらのタスクがモダリティと画像とテキストの関係の両方を必要としているかどうかを評価し、テキストだけでほとんどのカテゴリ(補完的、図示的、反対的)に十分であるかどうかを評価する。
怒りと悲しみの感情はマルチモーダルモデルによって最も予測されるが、テキストだけでは嫌悪感、喜び、驚きには十分である。
物体、動物、食べ物、人物によって描かれた刺激は画像のみのモデルによって最も予測され、マルチモーダルモデルは芸術、イベント、ミーム、場所、スクリーンショットにおいて最も効果的である。
関連論文リスト
- EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion
Models [11.901294654242376]
本稿では,感情カテゴリを与えられた意味的明瞭で感情に忠実な画像を生成するための新しいタスクである感情画像コンテンツ生成(EICG)を紹介する。
具体的には、感情空間を提案し、それを強力なコントラスト言語-画像事前学習(CLIP)空間と整合させるマッピングネットワークを構築する。
本手法は,最先端のテクスト・ツー・イメージ・アプローチを定量的・質的に上回る。
論文 参考訳(メタデータ) (2024-01-09T15:23:21Z) - EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [53.95428298229396]
リッチ属性を付加した最初の大規模視覚感情データセットであるEmoSetを紹介する。
EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。
心理学的な研究によって動機付けられ、感情のカテゴリに加えて、各画像には記述可能な感情特性のセットが注釈付けされている。
論文 参考訳(メタデータ) (2023-07-16T06:42:46Z) - High-Level Context Representation for Emotion Recognition in Images [4.987022981158291]
画像から高レベルな文脈表現を抽出する手法を提案する。
このモデルは、この表現と感情を関連付けるために、1つのキューと1つのエンコードストリームに依存している。
我々のアプローチは従来のモデルよりも効率的であり、感情認識に関連する現実の問題に対処するために容易に展開できる。
論文 参考訳(メタデータ) (2023-05-05T13:20:41Z) - Affection: Learning Affective Explanations for Real-World Visual Data [50.28825017427716]
我々は,85,007枚の公開画像に対して,感情反応と自由形式のテキスト説明を含む大規模データセットを研究コミュニティに導入し,共有する。
本研究は, 被写体集団に大きな支持を得て, 潜在的に有意な感情反応をとらえる上で, 重要な共通基盤があることを示唆する。
私たちの研究は、より豊かで、より人間中心で、感情に敏感な画像分析システムへの道を開くものです。
論文 参考訳(メタデータ) (2022-10-04T22:44:17Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Understanding of Emotion Perception from Art [39.47632069314582]
我々は、テキストと視覚の両方を用いて、アートワークによって視聴者が引き起こした感情を理解するという問題を考察する。
その結果,MMBTやVisualBERTのようなシングルストリームマルチモーダルトランスフォーマーモデルの方が,画像のみのモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-10-13T04:14:49Z) - Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network
for Emotional Conversation Generation [25.808037796936766]
実世界の会話では,マルチソース情報から感情を直感的に知覚する。
感情的会話生成のための異種グラフモデルを提案する。
実験結果は,本モデルがマルチソース知識から感情を効果的に知覚できることを示した。
論文 参考訳(メタデータ) (2020-12-09T06:09:31Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - Emosaic: Visualizing Affective Content of Text at Varying Granularity [0.0]
エモザイク(Emosaic)は、テキストの感情的なトーンを可視化するツールである。
我々は、人間の感情の3次元モデルを構築した。
論文 参考訳(メタデータ) (2020-02-24T07:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。