論文の概要: Smile on the Face, Sadness in the Eyes: Bridging the Emotion Gap with a Multimodal Dataset of Eye and Facial Behaviors
- arxiv url: http://arxiv.org/abs/2512.16485v1
- Date: Thu, 18 Dec 2025 12:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.059544
- Title: Smile on the Face, Sadness in the Eyes: Bridging the Emotion Gap with a Multimodal Dataset of Eye and Facial Behaviors
- Title(参考訳): Smile on the Face, Sadness in the Eyes: Bridging the Emotion Gap with a Multimodal Dataset of Eye and Facial Behaviors
- Authors: Kejun Liu, Yuanyuan Liu, Lin Wei, Chang Tang, Yibing Zhan, Zijing Chen, Zhe Chen,
- Abstract要約: 視覚行動は重要な感情的手がかりとして導入され、視覚行動支援マルチモーダル感情認識データセットを構築する。
実験では,EMERデータセットの総合的な評価のために,7つのマルチモーダルベンチマークプロトコルを導入する。
その結果、EMERTは、他の最先端のマルチモーダル手法よりも優れた性能を示し、ロバストERに対する目の動きのモデリングの重要性を明らかにした。
- 参考スコア(独自算出の注目度): 49.833812625518554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion Recognition (ER) is the process of analyzing and identifying human emotions from sensing data. Currently, the field heavily relies on facial expression recognition (FER) because visual channel conveys rich emotional cues. However, facial expressions are often used as social tools rather than manifestations of genuine inner emotions. To understand and bridge this gap between FER and ER, we introduce eye behaviors as an important emotional cue and construct an Eye-behavior-aided Multimodal Emotion Recognition (EMER) dataset. To collect data with genuine emotions, spontaneous emotion induction paradigm is exploited with stimulus material, during which non-invasive eye behavior data, like eye movement sequences and eye fixation maps, is captured together with facial expression videos. To better illustrate the gap between ER and FER, multi-view emotion labels for mutimodal ER and FER are separately annotated. Furthermore, based on the new dataset, we design a simple yet effective Eye-behavior-aided MER Transformer (EMERT) that enhances ER by bridging the emotion gap. EMERT leverages modality-adversarial feature decoupling and a multitask Transformer to model eye behaviors as a strong complement to facial expressions. In the experiment, we introduce seven multimodal benchmark protocols for a variety of comprehensive evaluations of the EMER dataset. The results show that the EMERT outperforms other state-of-the-art multimodal methods by a great margin, revealing the importance of modeling eye behaviors for robust ER. To sum up, we provide a comprehensive analysis of the importance of eye behaviors in ER, advancing the study on addressing the gap between FER and ER for more robust ER performance. Our EMER dataset and the trained EMERT models will be publicly available at https://github.com/kejun1/EMER.
- Abstract(参考訳): 感情認識(Emotion Recognition、ER)は、人間の感情を知覚データから分析し、識別するプロセスである。
現在、視野は表情認識(FER)に大きく依存している。
しかし、表情は真の内的感情の現れではなく、社会的な道具として使われることが多い。
FERとERのこのギャップを理解するために、重要な感情的キューとして目の動きを導入し、Eye-behavior-aided Multimodal Emotion Recognition (EMER)データセットを構築する。
真の感情でデータを収集するために、自発感情誘導パラダイムを刺激物質で利用し、顔表情ビデオとともに、眼球運動シーケンスや眼球固定マップなどの非侵襲的な眼行動データをキャプチャする。
ERとFERのギャップをよりよく説明するために、ミュータモダルERとFERのマルチビュー感情ラベルを別々に注釈付けする。
さらに,新たなデータセットをベースとして,感情ギャップを埋めることによりERを増強するEMERT(Eye-Behavior-Aided MER Transformer)を設計した。
EMERTは、顔表情の強力な補体として、モダリティ・逆転機能デカップリングとマルチタスク・トランスフォーマーを活用して、目の動きをモデル化する。
実験では,EMERデータセットの総合的な評価のために,7つのマルチモーダルベンチマークプロトコルを導入する。
その結果、EMERTは、他の最先端マルチモーダル手法よりも優れた性能を示し、ロバストERに対する目の動きのモデリングの重要性を明らかにした。
まとめると、ERにおける眼行動の重要性を総合的に分析し、より堅牢なER性能を実現するためにFERとERのギャップに対処する研究を進める。
私たちのEMERデータセットとトレーニングされたEMERTモデルは、https://github.com/kejun1/EMERで公開されます。
関連論文リスト
- EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis [61.87711517626139]
EmoVerseは、解釈可能な視覚的感情分析を可能にする、大規模なオープンソースデータセットである。
219k以上の画像で、データセットはさらにカテゴリー感情状態(CES)と次元感情空間(DES)の2つのアノテーションを含んでいる。
論文 参考訳(メタデータ) (2025-11-16T11:16:50Z) - Modelling the Interplay of Eye-Tracking Temporal Dynamics and Personality for Emotion Detection in Face-to-Face Settings [1.2600839346487007]
本研究は、視線追跡シーケンス、ビッグファイブの性格特性、文脈刺激を統合して、知覚と知覚の両方の感情を予測するパーソナリティ対応のマルチモーダル・フレームワークを提案する。
その結果、刺激が感情予測を強く促進する一方、性格特性は感情認識に最大の改善をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2025-09-19T16:05:23Z) - Modelling Emotions in Face-to-Face Setting: The Interplay of Eye-Tracking, Personality, and Temporal Dynamics [1.6029719942799865]
本研究では、視線追跡データ、時間的ダイナミクス、性格特性を統合することで、知覚と知覚の両方の感情の検出を大幅に向上させる方法について述べる。
本研究は,将来の情緒コンピューティングと人間エージェントシステムの設計を示唆するものである。
論文 参考訳(メタデータ) (2025-03-18T13:15:32Z) - Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors [63.194053817609024]
視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。
EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。
具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-08T04:53:55Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。