論文の概要: Using Scene and Semantic Features for Multi-modal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2308.00228v1
- Date: Tue, 1 Aug 2023 01:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 15:39:08.000379
- Title: Using Scene and Semantic Features for Multi-modal Emotion Recognition
- Title(参考訳): シーン・セマンティック特徴を用いたマルチモーダル感情認識
- Authors: Zhifeng Wang and Ramesh Sankaranarayana
- Abstract要約: マルチモーダル感情認識には,シーンとセマンティックの併用と個人的特徴の併用を提案する。
修正されたEmbraceNetを使って画像から特徴を抽出し、身体と特徴を同時に学習する訓練を行っている。
その結果,26の感情カテゴリーで平均40.39%の精度が得られ,従来のアプローチに比べて5%改善した。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic emotion recognition is a hot topic with a wide range of
applications. Much work has been done in the area of automatic emotion
recognition in recent years. The focus has been mainly on using the
characteristics of a person such as speech, facial expression and pose for this
purpose. However, the processing of scene and semantic features for emotion
recognition has had limited exploration. In this paper, we propose to use
combined scene and semantic features, along with personal features, for
multi-modal emotion recognition. Scene features will describe the environment
or context in which the target person is operating. The semantic feature can
include objects that are present in the environment, as well as their
attributes and relationships with the target person. In addition, we use a
modified EmbraceNet to extract features from the images, which is trained to
learn both the body and pose features simultaneously. By fusing both body and
pose features, the EmbraceNet can improve the accuracy and robustness of the
model, particularly when dealing with partially missing data. This is because
having both body and pose features provides a more complete representation of
the subject in the images, which can help the model to make more accurate
predictions even when some parts of body are missing. We demonstrate the
efficiency of our method on the benchmark EMOTIC dataset. We report an average
precision of 40.39\% across the 26 emotion categories, which is a 5\%
improvement over previous approaches.
- Abstract(参考訳): 感情の自動認識は、幅広い応用のホットトピックである。
近年、感情の自動認識の分野で多くの研究がなされている。
この目的のために、主に発話、表情、ポーズといった人の特徴を使うことに焦点が当てられている。
しかし,情緒認識のためのシーン処理や意味的特徴の探索は限定的であった。
本稿では,マルチモーダル感情認識にシーンと意味的特徴,および個人的特徴を併用する手法を提案する。
シーン機能は、対象者が操作している環境やコンテキストを記述する。
セマンティクス機能は、環境に存在するオブジェクトと、その属性と対象者との関係を含むことができる。
さらに、修正されたEmbraceNetを使用して、画像から特徴を抽出し、身体と特徴を同時に学習するように訓練する。
身体とポーズの両方の特徴を融合させることで、特に部分的に欠落したデータを扱う場合のモデルの正確性と堅牢性を向上させることができる。
これは、身体とポーズの両方の特徴を持つことで、画像中の被写体をより完全に表現できるため、身体の一部が欠けた場合でも、モデルがより正確な予測を行うのに役立つためである。
ベンチマークEMOTICデータセット上で,本手法の有効性を示す。
感情カテゴリー26種の平均精度は40.39 %であり,従来のアプローチに比べて5 % 向上している。
関連論文リスト
- Multi-Branch Network for Imagery Emotion Prediction [4.618814297494939]
画像中の離散的感情と連続的感情の両方を予測する新しいマルチブランチネットワーク(MBN)を提案する。
提案手法は,mAPが28.4%,MAEが0.93で最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-12T18:34:56Z) - EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [53.95428298229396]
リッチ属性を付加した最初の大規模視覚感情データセットであるEmoSetを紹介する。
EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。
心理学的な研究によって動機付けられ、感情のカテゴリに加えて、各画像には記述可能な感情特性のセットが注釈付けされている。
論文 参考訳(メタデータ) (2023-07-16T06:42:46Z) - High-Level Context Representation for Emotion Recognition in Images [4.987022981158291]
画像から高レベルな文脈表現を抽出する手法を提案する。
このモデルは、この表現と感情を関連付けるために、1つのキューと1つのエンコードストリームに依存している。
我々のアプローチは従来のモデルよりも効率的であり、感情認識に関連する現実の問題に対処するために容易に展開できる。
論文 参考訳(メタデータ) (2023-05-05T13:20:41Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。
提案手法とCAER-Sデータセットの最先端手法を比較した。
論文 参考訳(メタデータ) (2021-11-03T15:08:55Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。
連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:03:02Z) - Context Based Emotion Recognition using EMOTIC Dataset [22.631542327834595]
EMOTIC(エモティック)は, 感情に注意を喚起された人々のイメージのデータセットである。
EMOTICデータセットを使用して、感情認識のためのさまざまなCNNモデルをトレーニングする。
その結果,情緒状態を自動的に認識するためにシーンコンテキストが重要な情報を提供することを示す。
論文 参考訳(メタデータ) (2020-03-30T12:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。