論文の概要: Emotional Theory of Mind: Bridging Fast Visual Processing with Slow
Linguistic Reasoning
- arxiv url: http://arxiv.org/abs/2310.19995v1
- Date: Mon, 30 Oct 2023 20:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:36:17.537713
- Title: Emotional Theory of Mind: Bridging Fast Visual Processing with Slow
Linguistic Reasoning
- Title(参考訳): 心の感情理論:緩やかな言語推論による高速な視覚処理
- Authors: Yasaman Etesam and Ozge Nilay Yalcin and Chuxuan Zhang and Angelica
Lim
- Abstract要約: イメージにおける心的問題に関する感情理論は、感情認識タスクであり、「境界ボックスの人はどのように感じるか?」と問うものである。
本研究では,最近の大規模視覚言語モデルに埋め込まれた感情的コモンセンス知識をコンテキストデータセットの感情で評価する。
EMOTICでゼロショット視覚言語モデルを用いた実験では、「高速」と「スロー」の推論を組み合わせることが感情認識システムを改善するための有望な方法であることが示された。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emotional theory of mind problem in images is an emotion recognition
task, specifically asking "How does the person in the bounding box feel?"
Facial expressions, body pose, contextual information and implicit commonsense
knowledge all contribute to the difficulty of the task, making this task
currently one of the hardest problems in affective computing. The goal of this
work is to evaluate the emotional commonsense knowledge embedded in recent
large vision language models (CLIP, LLaVA) and large language models (GPT-3.5)
on the Emotions in Context (EMOTIC) dataset. In order to evaluate a purely
text-based language model on images, we construct "narrative captions" relevant
to emotion perception, using a set of 872 physical social signal descriptions
related to 26 emotional categories, along with 224 labels for emotionally
salient environmental contexts, sourced from writer's guides for character
expressions and settings. We evaluate the use of the resulting captions in an
image-to-language-to-emotion task. Experiments using zero-shot vision-language
models on EMOTIC show that combining "fast" and "slow" reasoning is a promising
way forward to improve emotion recognition systems. Nevertheless, a gap remains
in the zero-shot emotional theory of mind task compared to prior work trained
on the EMOTIC dataset.
- Abstract(参考訳): イメージにおける心的問題の理論は感情認識のタスクであり、具体的には「境界ボックスの人はどのように感じるか?」と問う。
表情、ボディポーズ、文脈情報、暗黙のコモンセンス知識はいずれもタスクの難しさに寄与し、現在このタスクは感情コンピューティングにおいて最も難しい問題の一つである。
本研究の目的は,最近の大規模視覚言語モデル (CLIP, LLaVA) と大規模言語モデル (GPT-3.5) に埋め込まれた情緒的常識知識をコンテキスト内感情(EMOTIC)データセット上で評価することである。
画像上の純粋テキストに基づく言語モデルを評価するために,26の感情カテゴリに関連する社会的信号記述852と,文字表現と設定に関する著者のガイドから引用された感情的に良好な環境文脈のラベル224を用いて,感情知覚に関連する「ナラティブキャプション」を構築する。
画像から言語への移動タスクにおけるキャプションの利用を評価する。
ゼロショット視覚言語モデルを用いたエモティックな実験は、"高速"と"低い"推論の組み合わせが感情認識システムを改善するための有望な方法であることを示している。
それでも、EMOTICデータセットでトレーニングされた以前の作業と比べて、心のタスクのゼロショット感情理論にはギャップが残っている。
関連論文リスト
- Think out Loud: Emotion Deducing Explanation in Dialogues [57.90554323226896]
対話における感情推論(Emotion Deducing Explanation in Dialogues)を提案する。
EDENは感情と原因を明確な考え方で認識する。
大規模言語モデル(LLM)が感情や原因をよりよく認識するのに役立ちます。
論文 参考訳(メタデータ) (2024-06-07T08:58:29Z) - ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Contextual Emotion Estimation from Image Captions [0.6749750044497732]
大規模言語モデルが文脈的感情推定タスクをサポートできるかを,まずイメージをキャプションし,LLMを用いて推論する。
EMOTICデータセットから331画像のサブセットのキャプションと感情アノテーションを生成する。
GPT-3.5(特にtext-davinci-003モデル)は、人間のアノテーションと一致した驚くほど合理的な感情予測を提供する。
論文 参考訳(メタデータ) (2023-09-22T18:44:34Z) - Affection: Learning Affective Explanations for Real-World Visual Data [50.28825017427716]
我々は,85,007枚の公開画像に対して,感情反応と自由形式のテキスト説明を含む大規模データセットを研究コミュニティに導入し,共有する。
本研究は, 被写体集団に大きな支持を得て, 潜在的に有意な感情反応をとらえる上で, 重要な共通基盤があることを示唆する。
私たちの研究は、より豊かで、より人間中心で、感情に敏感な画像分析システムへの道を開くものです。
論文 参考訳(メタデータ) (2022-10-04T22:44:17Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Emotion Recognition under Consideration of the Emotion Component Process
Model [9.595357496779394]
我々はScherer (2005) による感情成分プロセスモデル (CPM) を用いて感情コミュニケーションを説明する。
CPMは、感情は、出来事、すなわち主観的感情、認知的評価、表現、生理的身体反応、動機的行動傾向に対する様々なサブコンポーネントの協調過程であると述べている。
Twitter上での感情は、主に出来事の説明や主観的な感情の報告によって表現されているのに対し、文献では、著者はキャラクターが何をしているかを記述し、解釈を読者に任せることを好む。
論文 参考訳(メタデータ) (2021-07-27T15:53:25Z) - DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in
Conversations [0.0]
本稿では,会話コンテキストを認知的視点から完全に理解するための新しい文脈推論ネットワーク(DialogueCRN)を提案する。
感情認知理論(Cognitive Theory of Emotion)に触発された我々は、感情の手がかりを抽出し統合するための多ターン推論モジュールを設計する。
推論モジュールは、人間の独特な認知的思考を模倣する直感的検索プロセスと意識的推論プロセスを反復的に実行する。
論文 参考訳(メタデータ) (2021-06-03T16:47:38Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。