Fugu-MT 論文翻訳(概要): Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors

論文の概要: Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors

arxiv url: http://arxiv.org/abs/2411.05879v2
Date: Tue, 19 Nov 2024 16:00:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.942831
Title: Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors
Title（参考訳）: 顔は笑うが目は悲しみ―表情と眼行動に基づく感情認識―
Authors: Yuanyuan Liu, Lin Wei, Kejun Liu, Yibing Zhan, Zijing Chen, Zhe Chen, Shiguang Shan,
Abstract要約: 視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。 EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
参考スコア（独自算出の注目度）: 63.194053817609024
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotion Recognition (ER) is the process of identifying human emotions from given data. Currently, the field heavily relies on facial expression recognition (FER) because facial expressions contain rich emotional cues. However, it is important to note that facial expressions may not always precisely reflect genuine emotions and FER-based results may yield misleading ER. To understand and bridge this gap between FER and ER, we introduce eye behaviors as an important emotional cues for the creation of a new Eye-behavior-aided Multimodal Emotion Recognition (EMER) dataset. Different from existing multimodal ER datasets, the EMER dataset employs a stimulus material-induced spontaneous emotion generation method to integrate non-invasive eye behavior data, like eye movements and eye fixation maps, with facial videos, aiming to obtain natural and accurate human emotions. Notably, for the first time, we provide annotations for both ER and FER in the EMER, enabling a comprehensive analysis to better illustrate the gap between both tasks. Furthermore, we specifically design a new EMERT architecture to concurrently enhance performance in both ER and FER by efficiently identifying and bridging the emotion gap between the two.Specifically, our EMERT employs modality-adversarial feature decoupling and multi-task Transformer to augment the modeling of eye behaviors, thus providing an effective complement to facial expressions. In the experiment, we introduce seven multimodal benchmark protocols for a variety of comprehensive evaluations of the EMER dataset. The results show that the EMERT outperforms other state-of-the-art multimodal methods by a great margin, revealing the importance of modeling eye behaviors for robust ER. To sum up, we provide a comprehensive analysis of the importance of eye behaviors in ER, advancing the study on addressing the gap between FER and ER for more robust ER performance.
Abstract（参考訳）: 感情認識(Emotion Recognition、ER)は、与えられたデータから人間の感情を識別するプロセスである。現在、表情には豊かな感情的手がかりが含まれているため、表情認識(FER)に大きく依存している。しかし、表情が必ずしも本当の感情を正確に反映するとは限らないことや、FERに基づく結果が誤解を招く可能性があることに注意する必要がある。 FERとERのこのギャップを理解し,橋渡しするために,新しいEye-behavior-aided Multimodal Emotion Recognition (EMER)データセットを作成するための重要な感情的手がかりとして,眼行動を導入する。既存のマルチモーダルERデータセットとは異なり、EMERデータセットは刺激物質によって引き起こされる自発的な感情生成手法を使用して、眼球運動や眼球固定地図のような非侵襲的な眼行動データを顔ビデオと統合し、自然で正確な人間の感情を得る。特に、EMERでERとFERの両方のアノテーションを初めて提供し、包括的な分析により、両方のタスク間のギャップをよりよく説明できるようにします。さらに, ERとFERの両面において, 感情ギャップを効率的に識別し, ブリッジすることで, ERとFERの両面のパフォーマンスを同時に向上させる新しいEMERTアーキテクチャを設計する。実験では,EMERデータセットの総合的な評価のために,7つのマルチモーダルベンチマークプロトコルを導入する。その結果、EMERTは、他の最先端マルチモーダル手法よりも優れた性能を示し、ロバストERに対する目の動きのモデリングの重要性を明らかにした。まとめると、ERにおける眼行動の重要性を総合的に分析し、より堅牢なER性能を実現するためにFERとERのギャップに対処する研究を進める。

関連論文リスト

CAST-Phys: Contactless Affective States Through Physiological signals Database [74.28082880875368]
感情的なマルチモーダルデータセットの欠如は、正確な感情認識システムを開発する上で、依然として大きなボトルネックとなっている。遠隔の生理的感情認識が可能な新しい高品質なデータセットであるCAST-Physを提示する。本分析では,表情だけでは十分な感情情報が得られない現実的なシナリオにおいて,生理的信号が重要な役割を担っていることを強調した。
論文参考訳（メタデータ） (2025-07-08T15:20:24Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
Modelling Emotions in Face-to-Face Setting: The Interplay of Eye-Tracking, Personality, and Temporal Dynamics [1.4645774851707578]
本研究では、視線追跡データ、時間的ダイナミクス、性格特性を統合することで、知覚と知覚の両方の感情の検出を大幅に向上させる方法について述べる。本研究は,将来の情緒コンピューティングと人間エージェントシステムの設計を示唆するものである。
論文参考訳（メタデータ） (2025-03-18T13:15:32Z)
Online Multi-level Contrastive Representation Distillation for Cross-Subject fNIRS Emotion Recognition [11.72499878247794]
我々は,OMCRD(Online Multi-level Contrastive Representation Distillation framework)と呼ばれる,クロスオブジェクトなfNIRS感情認識手法を提案する。 OMCRDは、複数の軽量学生ネットワーク間の相互学習のために設計されたフレームワークである。いくつかの実験結果から,OMCRDは情緒的知覚や情緒的イメージタスクにおいて,最先端の成果を達成できることが示された。
論文参考訳（メタデータ） (2024-09-24T13:30:15Z)
EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。 EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文参考訳（メタデータ） (2024-06-24T08:33:02Z)
OUS: Scene-Guided Dynamic Facial Expression Recognition [28.567496552848716]
動的顔表情認識(DFER)は情緒的コンピューティングには不可欠であるが、シーンコンテキストの影響を見落としていることが多い。人間のアノテータは通常、様々な角度から感情を統合する。本研究では,情動の認知パラダイムとより緊密に一致させるために,情緒的DFER法(OUS)の総合的理解を提案する。
論文参考訳（メタデータ） (2024-05-29T05:12:16Z)
Facial Expression Recognition using Squeeze and Excitation-powered Swin Transformers [0.0]
本研究では,Swin Vision Transformers (SwinT) とSwin Vision Transformers (SE) を用いて,視覚タスクに対処するフレームワークを提案する。我々の焦点は、最小限のデータを使って顔の感情を認識できるSwinTアーキテクチャに基づく効率的なFERモデルを作ることであった。我々は、ハイブリッドデータセットでモデルをトレーニングし、そのパフォーマンスをAffectNetデータセットで評価し、F1スコア0.5420を達成しました。
論文参考訳（メタデータ） (2023-01-26T02:29:17Z)
A comparative study of emotion recognition methods using facial expressions [0.4874780144224056]
本研究の目的は、3つのFERデータセット上で、FERタスクを改善するためのそれぞれ独自のアプローチを持つ3つの最先端ネットワークの性能を比較することである。
論文参考訳（メタデータ） (2022-12-05T10:34:35Z)
SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文参考訳（メタデータ） (2021-10-24T02:41:41Z)
Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2021-09-04T08:14:52Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)
Emotion pattern detection on facial videos using functional statistics [62.997667081978825]
顔面筋運動の有意なパターンを抽出する機能的ANOVAに基づく手法を提案する。感情群間の表現に時間的差があるかどうかを関数fテストを用いて判定する。
論文参考訳（メタデータ） (2021-03-01T08:31:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。