論文の概要: Emotional Theory of Mind: Bridging Fast Visual Processing with Slow
Linguistic Reasoning
- arxiv url: http://arxiv.org/abs/2310.19995v1
- Date: Mon, 30 Oct 2023 20:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:36:17.537713
- Title: Emotional Theory of Mind: Bridging Fast Visual Processing with Slow
Linguistic Reasoning
- Title(参考訳): 心の感情理論:緩やかな言語推論による高速な視覚処理
- Authors: Yasaman Etesam and Ozge Nilay Yalcin and Chuxuan Zhang and Angelica
Lim
- Abstract要約: イメージにおける心的問題に関する感情理論は、感情認識タスクであり、「境界ボックスの人はどのように感じるか?」と問うものである。
本研究では,最近の大規模視覚言語モデルに埋め込まれた感情的コモンセンス知識をコンテキストデータセットの感情で評価する。
EMOTICでゼロショット視覚言語モデルを用いた実験では、「高速」と「スロー」の推論を組み合わせることが感情認識システムを改善するための有望な方法であることが示された。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emotional theory of mind problem in images is an emotion recognition
task, specifically asking "How does the person in the bounding box feel?"
Facial expressions, body pose, contextual information and implicit commonsense
knowledge all contribute to the difficulty of the task, making this task
currently one of the hardest problems in affective computing. The goal of this
work is to evaluate the emotional commonsense knowledge embedded in recent
large vision language models (CLIP, LLaVA) and large language models (GPT-3.5)
on the Emotions in Context (EMOTIC) dataset. In order to evaluate a purely
text-based language model on images, we construct "narrative captions" relevant
to emotion perception, using a set of 872 physical social signal descriptions
related to 26 emotional categories, along with 224 labels for emotionally
salient environmental contexts, sourced from writer's guides for character
expressions and settings. We evaluate the use of the resulting captions in an
image-to-language-to-emotion task. Experiments using zero-shot vision-language
models on EMOTIC show that combining "fast" and "slow" reasoning is a promising
way forward to improve emotion recognition systems. Nevertheless, a gap remains
in the zero-shot emotional theory of mind task compared to prior work trained
on the EMOTIC dataset.
- Abstract(参考訳): イメージにおける心的問題の理論は感情認識のタスクであり、具体的には「境界ボックスの人はどのように感じるか?」と問う。
表情、ボディポーズ、文脈情報、暗黙のコモンセンス知識はいずれもタスクの難しさに寄与し、現在このタスクは感情コンピューティングにおいて最も難しい問題の一つである。
本研究の目的は,最近の大規模視覚言語モデル (CLIP, LLaVA) と大規模言語モデル (GPT-3.5) に埋め込まれた情緒的常識知識をコンテキスト内感情(EMOTIC)データセット上で評価することである。
画像上の純粋テキストに基づく言語モデルを評価するために,26の感情カテゴリに関連する社会的信号記述852と,文字表現と設定に関する著者のガイドから引用された感情的に良好な環境文脈のラベル224を用いて,感情知覚に関連する「ナラティブキャプション」を構築する。
画像から言語への移動タスクにおけるキャプションの利用を評価する。
ゼロショット視覚言語モデルを用いたエモティックな実験は、"高速"と"低い"推論の組み合わせが感情認識システムを改善するための有望な方法であることを示している。
それでも、EMOTICデータセットでトレーニングされた以前の作業と比べて、心のタスクのゼロショット感情理論にはギャップが残っている。
関連論文リスト
- EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion
Models [11.901294654242376]
本稿では,感情カテゴリを与えられた意味的明瞭で感情に忠実な画像を生成するための新しいタスクである感情画像コンテンツ生成(EICG)を紹介する。
具体的には、感情空間を提案し、それを強力なコントラスト言語-画像事前学習(CLIP)空間と整合させるマッピングネットワークを構築する。
本手法は,最先端のテクスト・ツー・イメージ・アプローチを定量的・質的に上回る。
論文 参考訳(メタデータ) (2024-01-09T15:23:21Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Contextual Emotion Estimation from Image Captions [0.6749750044497732]
大規模言語モデルが文脈的感情推定タスクをサポートできるかを,まずイメージをキャプションし,LLMを用いて推論する。
EMOTICデータセットから331画像のサブセットのキャプションと感情アノテーションを生成する。
GPT-3.5(特にtext-davinci-003モデル)は、人間のアノテーションと一致した驚くほど合理的な感情予測を提供する。
論文 参考訳(メタデータ) (2023-09-22T18:44:34Z) - High-Level Context Representation for Emotion Recognition in Images [4.987022981158291]
画像から高レベルな文脈表現を抽出する手法を提案する。
このモデルは、この表現と感情を関連付けるために、1つのキューと1つのエンコードストリームに依存している。
我々のアプローチは従来のモデルよりも効率的であり、感情認識に関連する現実の問題に対処するために容易に展開できる。
論文 参考訳(メタデータ) (2023-05-05T13:20:41Z) - Affection: Learning Affective Explanations for Real-World Visual Data [50.28825017427716]
我々は,85,007枚の公開画像に対して,感情反応と自由形式のテキスト説明を含む大規模データセットを研究コミュニティに導入し,共有する。
本研究は, 被写体集団に大きな支持を得て, 潜在的に有意な感情反応をとらえる上で, 重要な共通基盤があることを示唆する。
私たちの研究は、より豊かで、より人間中心で、感情に敏感な画像分析システムへの道を開くものです。
論文 参考訳(メタデータ) (2022-10-04T22:44:17Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - EmoDNN: Understanding emotions from short texts through a deep neural
network ensemble [2.459874436804819]
本稿では,短い内容から潜伏した個々の側面を推定する枠組みを提案する。
また,テキストコンテキストから感情を抽出する動的ドロップアウト共振器を備えた新しいアンサンブル分類器を提案する。
提案モデルでは,ノイズのある内容から感情を認識する上で,高い性能を実現することができる。
論文 参考訳(メタデータ) (2021-06-03T09:17:34Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。