論文の概要: How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations
- arxiv url: http://arxiv.org/abs/2409.02566v1
- Date: Wed, 4 Sep 2024 09:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 19:30:37.193677
- Title: How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations
- Title(参考訳): 顔をどう知覚するか : 心的表現のモデル化によるマルチモーダルコンテキストにおける表情認識
- Authors: Florian Blume, Runfeng Qu, Pia Bideau, Martin Maier, Rasha Abdel Rahman, Olaf Hellwich,
- Abstract要約: 本稿では,単純な分類タスクを超越した新しい表情分類手法を提案する。
本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。
本研究では,人間の心的表現の近似を効果的に生成することを示す。
- 参考スコア(独自算出の注目度): 5.895694050664867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial expression perception in humans inherently relies on prior knowledge and contextual cues, contributing to efficient and flexible processing. For instance, multi-modal emotional context (such as voice color, affective text, body pose, etc.) can prompt people to perceive emotional expressions in objectively neutral faces. Drawing inspiration from this, we introduce a novel approach for facial expression classification that goes beyond simple classification tasks. Our model accurately classifies a perceived face and synthesizes the corresponding mental representation perceived by a human when observing a face in context. With this, our model offers visual insights into its internal decision-making process. We achieve this by learning two independent representations of content and context using a VAE-GAN architecture. Subsequently, we propose a novel attention mechanism for context-dependent feature adaptation. The adapted representation is used for classification and to generate a context-augmented expression. We evaluate synthesized expressions in a human study, showing that our model effectively produces approximations of human mental representations. We achieve State-of-the-Art classification accuracies of 81.01% on the RAVDESS dataset and 79.34% on the MEAD dataset. We make our code publicly available.
- Abstract(参考訳): 人間の表情知覚は、本質的には事前の知識と文脈の手がかりに依存し、効率的で柔軟な処理に寄与する。
例えば、マルチモーダルな感情的文脈(声色、感情的テキスト、身体のポーズなど)は、客に客観的に中立な顔の感情的表現を知覚させる。
そこからインスピレーションを得て、簡単な分類タスクを超えて、表情の分類に新しいアプローチを導入する。
本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。
これにより、私たちのモデルは、内部の意思決定プロセスに関する視覚的な洞察を提供する。
VAE-GANアーキテクチャを用いて、コンテンツとコンテキストの独立した2つの表現を学習することで、これを実現する。
次に,コンテキスト依存型特徴適応のための新しいアテンション機構を提案する。
適応表現は分類に使われ、文脈拡張表現を生成する。
本研究では,人間の心的表現の近似を効果的に生成することを示す。
我々は、RAVDESSデータセットで81.01%、MEADデータセットで79.34%の最先端の分類精度を達成した。
コードを公開しています。
関連論文リスト
- ST-Gait++: Leveraging spatio-temporal convolutions for gait-based emotion recognition on videos [3.1489012476109854]
歩行の分析を通して感情認識のための枠組みを提案する。
我々のモデルは空間的時間的グラフ畳み込みネットワークからなる。
提案手法をE-Gaitデータセット上で評価し,2177個のサンプルから構成した。
論文 参考訳(メタデータ) (2024-05-22T18:24:21Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Emotion Recognition for Challenged People Facial Appearance in Social
using Neural Network [0.0]
CNNでは、取得した画像を異なる感情カテゴリに分類するために顔表現が使用される。
本稿では,画像による表情の認識と啓蒙の不変性について提案する。
論文 参考訳(メタデータ) (2023-05-11T14:38:27Z) - Contextually-rich human affect perception using multimodal scene
information [36.042369831043686]
我々は、事前学習された視覚言語(VLN)モデルを利用して、画像から前景の文脈の記述を抽出する。
本研究では,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。
自然のシーンとテレビ番組に関連する2つのデータセットに対して,モジュール設計の有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T07:46:41Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Learning Graph Representation of Person-specific Cognitive Processes
from Audio-visual Behaviours for Automatic Personality Recognition [17.428626029689653]
本稿では,対象対象者固有の認知を,個人固有のCNNアーキテクチャの形で表現することを提案する。
各人物固有のCNNは、ニューラルアーキテクチャサーチ(NAS)と新しい適応損失関数によって探索される。
実験の結果,生成したグラフ表現は対象者の性格特性とよく関連していることがわかった。
論文 参考訳(メタデータ) (2021-10-26T11:04:23Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。
連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。