Fugu-MT 論文翻訳(概要): OUS: Scene-Guided Dynamic Facial Expression Recognition

論文の概要: OUS: Scene-Guided Dynamic Facial Expression Recognition

arxiv url: http://arxiv.org/abs/2405.18769v1
Date: Wed, 29 May 2024 05:12:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 18:48:25.162977
Title: OUS: Scene-Guided Dynamic Facial Expression Recognition
Title（参考訳）: OUS:Scene-Guided Dynamic Facial Expression Recognition
Authors: Xinji Mai, Haoran Wang, Zeng Tao, Junxiong Lin, Shaoqi Yan, Yan Wang, Jing Liu, Jiawen Yu, Xuan Tong, Yating Li, Wenqiang Zhang,
Abstract要約: 動的顔表情認識(DFER)は情緒的コンピューティングには不可欠であるが、シーンコンテキストの影響を見落としていることが多い。人間のアノテータは通常、様々な角度から感情を統合する。本研究では,情動の認知パラダイムとより緊密に一致させるために,情緒的DFER法(OUS)の総合的理解を提案する。
参考スコア（独自算出の注目度）: 28.567496552848716
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dynamic Facial Expression Recognition (DFER) is crucial for affective computing but often overlooks the impact of scene context. We have identified a significant issue in current DFER tasks: human annotators typically integrate emotions from various angles, including environmental cues and body language, whereas existing DFER methods tend to consider the scene as noise that needs to be filtered out, focusing solely on facial information. We refer to this as the Rigid Cognitive Problem. The Rigid Cognitive Problem can lead to discrepancies between the cognition of annotators and models in some samples. To align more closely with the human cognitive paradigm of emotions, we propose an Overall Understanding of the Scene DFER method (OUS). OUS effectively integrates scene and facial features, combining scene-specific emotional knowledge for DFER. Extensive experiments on the two largest datasets in the DFER field, DFEW and FERV39k, demonstrate that OUS significantly outperforms existing methods. By analyzing the Rigid Cognitive Problem, OUS successfully understands the complex relationship between scene context and emotional expression, closely aligning with human emotional understanding in real-world scenarios.
Abstract（参考訳）: 動的顔表情認識(DFER)は情緒的コンピューティングには不可欠であるが、シーンコンテキストの影響を見落としていることが多い。人間のアノテータは、環境手がかりやボディランゲージなど、さまざまな角度から感情を統合するのが一般的であるのに対して、既存のDFERメソッドでは、シーンを、顔情報にのみ焦点をあてて、フィルタリングが必要なノイズとして考える傾向があります。これを「剛性認知問題」と呼ぶ。 Rigid Cognitive Problemは、いくつかのサンプルにおいて、アノテーションの認識とモデルの間に相違をもたらす可能性がある。感情の人間の認知パラダイムとより緊密に一致させるために,情景DFER法(OUS)の総合的理解を提案する。 OUSはシーンと顔の特徴を効果的に統合し、DFERのシーン固有の感情的知識を組み合わせる。 DFERフィールドにおける2つの大きなデータセットであるDFEWとFERV39kに関する大規模な実験は、ousが既存の手法よりも大幅に優れていることを示した。 Rigid Cognitive Problemを解析することにより、ousはシーンコンテキストと感情表現の複雑な関係をうまく理解し、現実世界のシナリオにおける人間の感情的理解と密接に一致させる。

関連論文リスト

Smile on the Face, Sadness in the Eyes: Bridging the Emotion Gap with a Multimodal Dataset of Eye and Facial Behaviors [49.833812625518554]
視覚行動は重要な感情的手がかりとして導入され、視覚行動支援マルチモーダル感情認識データセットを構築する。実験では,EMERデータセットの総合的な評価のために,7つのマルチモーダルベンチマークプロトコルを導入する。その結果、EMERTは、他の最先端のマルチモーダル手法よりも優れた性能を示し、ロバストERに対する目の動きのモデリングの重要性を明らかにした。
論文参考訳（メタデータ） (2025-12-18T12:52:55Z)
Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition [49.41688891301643]
動的表情認識は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的としている。 DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。本稿では,テキスト誘導型弱教師付きフレームワークであるTG-DFERを提案する。
論文参考訳（メタデータ） (2025-11-14T04:49:58Z)
KEVER^2: Knowledge-Enhanced Visual Emotion Reasoning and Retrieval [35.77379981826482]
感情推論と検索のための知識強化フレームワークである textbfK-EVERtextsuperscript2 を提案する。本手法では,視覚的感情の意味的構造を定式化し,マルチモーダルアライメントを通じて外部の情緒的知識を統合する。 Emotion6、EmoSet、M-Disasterの3つの代表的なベンチマークで、ソーシャルメディアの画像、人間中心のシーン、災害状況について検証した。
論文参考訳（メタデータ） (2025-05-30T08:33:32Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors [63.194053817609024]
視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。 EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
論文参考訳（メタデータ） (2024-11-08T04:53:55Z)
UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception [8.54013419046987]
視覚的感情分析のためのクロスモーダルな意味誘導型大規模事前学習フレームワークUniEmoXを紹介する。 UniEmoXは、ペア画像と未ペア画像テキストの類似性を利用して、CLIPモデルから豊富な意味知識を抽出し、感情的な埋め込み表現を強化する。 Emo8というタイトルの視覚的感情的データセットを開発し、ほとんどすべての感情的シーンをカバーしています。
論文参考訳（メタデータ） (2024-09-27T16:12:51Z)
Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-04-26T07:30:32Z)
Affective Behaviour Analysis via Integrating Multi-Modal Knowledge [24.74463315135503]
ABAW(Affective Behavior Analysis in-wild)の第6回コンペティションでは、Aff-Wild2、Hum-Vidmimic2、C-EXPR-DBデータセットが使用されている。本稿では,Valence-Arousal (VA) Estimation, Expression (EXPR) Recognition, Action Unit (AU) Detection, Compound Expression (CE) Recognition, Emotional Mimicry Intensity (EMI) Estimationの5つの競合トラックについて提案する。
論文参考訳（メタデータ） (2024-03-16T06:26:43Z)
CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。 CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文参考訳（メタデータ） (2022-08-10T15:46:05Z)
Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。提案手法とCAER-Sデータセットの最先端手法を比較した。
論文参考訳（メタデータ） (2021-11-03T15:08:55Z)
SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文参考訳（メタデータ） (2021-10-24T02:41:41Z)
Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2021-09-04T08:14:52Z)
Affect2MM: Affective Analysis of Multimedia Content Using Emotion Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文参考訳（メタデータ） (2021-03-11T09:07:25Z)
Context Based Emotion Recognition using EMOTIC Dataset [22.631542327834595]
EMOTIC(エモティック)は, 感情に注意を喚起された人々のイメージのデータセットである。 EMOTICデータセットを使用して、感情認識のためのさまざまなCNNモデルをトレーニングする。その結果,情緒状態を自動的に認識するためにシーンコンテキストが重要な情報を提供することを示す。
論文参考訳（メタデータ） (2020-03-30T12:38:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。