論文の概要: Contextual Emotion Estimation from Image Captions
- arxiv url: http://arxiv.org/abs/2309.13136v1
- Date: Fri, 22 Sep 2023 18:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 22:05:34.019304
- Title: Contextual Emotion Estimation from Image Captions
- Title(参考訳): 画像キャプションからの文脈感情推定
- Authors: Vera Yang, Archita Srivastava, Yasaman Etesam, Chuxuan Zhang, Angelica
Lim
- Abstract要約: 大規模言語モデルが文脈的感情推定タスクをサポートできるかを,まずイメージをキャプションし,LLMを用いて推論する。
EMOTICデータセットから331画像のサブセットのキャプションと感情アノテーションを生成する。
GPT-3.5(特にtext-davinci-003モデル)は、人間のアノテーションと一致した驚くほど合理的な感情予測を提供する。
- 参考スコア(独自算出の注目度): 0.6749750044497732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion estimation in images is a challenging task, typically using computer
vision methods to directly estimate people's emotions using face, body pose and
contextual cues. In this paper, we explore whether Large Language Models (LLMs)
can support the contextual emotion estimation task, by first captioning images,
then using an LLM for inference. First, we must understand: how well do LLMs
perceive human emotions? And which parts of the information enable them to
determine emotions? One initial challenge is to construct a caption that
describes a person within a scene with information relevant for emotion
perception. Towards this goal, we propose a set of natural language descriptors
for faces, bodies, interactions, and environments. We use them to manually
generate captions and emotion annotations for a subset of 331 images from the
EMOTIC dataset. These captions offer an interpretable representation for
emotion estimation, towards understanding how elements of a scene affect
emotion perception in LLMs and beyond. Secondly, we test the capability of a
large language model to infer an emotion from the resulting image captions. We
find that GPT-3.5, specifically the text-davinci-003 model, provides
surprisingly reasonable emotion predictions consistent with human annotations,
but accuracy can depend on the emotion concept. Overall, the results suggest
promise in the image captioning and LLM approach.
- Abstract(参考訳): 画像中の感情推定は難しい作業であり、通常、コンピュータビジョンを用いて顔、身体のポーズ、文脈の手がかりを用いて人々の感情を直接推定する。
本稿では,Large Language Models (LLMs) が,まずイメージをキャプションし,次に LLM を用いて,文脈的感情推定タスクをサポートできるかを検討する。
まず、LLMが人間の感情をどの程度知覚するかを理解する必要があります。
そして、情報のどの部分が感情を判断できるのか?
最初の課題は、感情知覚に関連する情報を含むシーン内の人物を記述したキャプションを構築することである。
この目的に向けて, 顔, 身体, インタラクション, 環境のための自然言語記述子セットを提案する。
EMOTICデータセットから331の画像のサブセットに対して,手動でキャプションと感情アノテーションを生成する。
これらのキャプションは、シーンの要素がLLMなどの感情知覚にどのように影響するかを理解するために、感情推定の解釈可能な表現を提供する。
第二に、画像キャプションから感情を推測する大規模言語モデルの能力をテストする。
GPT-3.5(特にtext-davinci-003モデル)は、人間のアノテーションと一致した驚くほど合理的な感情予測を提供するが、精度は感情概念に依存する。
以上の結果から,画像キャプションとLCMアプローチの有望性が示唆された。
関連論文リスト
- Think out Loud: Emotion Deducing Explanation in Dialogues [57.90554323226896]
対話における感情推論(Emotion Deducing Explanation in Dialogues)を提案する。
EDENは感情と原因を明確な考え方で認識する。
大規模言語モデル(LLM)が感情や原因をよりよく認識するのに役立ちます。
論文 参考訳(メタデータ) (2024-06-07T08:58:29Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Emotional Theory of Mind: Bridging Fast Visual Processing with Slow Linguistic Reasoning [0.6749750044497732]
本研究では,感情認知に関連する「物語キャプション」を構築することで,感情的推論機能を組み込む手法を提案する。
ゼロショット分類器 (CLIP) と微調整型視覚言語モデル (LLaVA) を用いて, 人間の生成した記述子上でのキャプションを構築する2つの方法を提案する。
実験の結果,「最強」の物語記述子と言語モデルの「スロー」推論を組み合わせることは,心の感情理論を実現するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2023-10-30T20:26:12Z) - High-Level Context Representation for Emotion Recognition in Images [4.987022981158291]
画像から高レベルな文脈表現を抽出する手法を提案する。
このモデルは、この表現と感情を関連付けるために、1つのキューと1つのエンコードストリームに依存している。
我々のアプローチは従来のモデルよりも効率的であり、感情認識に関連する現実の問題に対処するために容易に展開できる。
論文 参考訳(メタデータ) (2023-05-05T13:20:41Z) - Contextually-rich human affect perception using multimodal scene
information [36.042369831043686]
我々は、事前学習された視覚言語(VLN)モデルを利用して、画像から前景の文脈の記述を抽出する。
本研究では,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。
自然のシーンとテレビ番組に関連する2つのデータセットに対して,モジュール設計の有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T07:46:41Z) - PERI: Part Aware Emotion Recognition In The Wild [4.206175795966693]
本稿では視覚的特徴を用いた感情認識に焦点を当てる。
身体のポーズと顔のランドマークの両方から生成されたマスクを用いて、入力画像からキー領域を抽出し、部分認識空間(PAS)画像を作成する。
野生のEMOTICデータセットで公開されている結果について報告する。
論文 参考訳(メタデータ) (2022-10-18T20:01:40Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - Annotation of Emotion Carriers in Personal Narratives [69.07034604580214]
我々は、個人的物語(PN) - 話されたり書かれたり - 事実、出来事、思考の記憶 - を理解する問題に興味を持っている。
PNでは、感情担体(英: emotion carriers)は、ユーザの感情状態を最もよく説明する音声またはテキストセグメントである。
本研究は,音声対話における感情担持者を特定するためのアノテーションモデルを提案し,評価する。
論文 参考訳(メタデータ) (2020-02-27T15:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。