論文の概要: Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data
- arxiv url: http://arxiv.org/abs/2409.06154v2
- Date: Fri, 10 Jan 2025 09:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:24:54.891463
- Title: Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data
- Title(参考訳): 動的の静的:静的表現データを用いた動的表情のより深い理解に向けて
- Authors: Yin Chen, Jia Li, Yu Zhang, Zhenzhen Hu, Shiguang Shan, Meng Wang, Richang Hong,
- Abstract要約: 本稿では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークを提案する。
S4Dは、共有トランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用する。
実験により、S4DはDFERをより深く理解し、新しい最先端のパフォーマンスを設定できることが示された。
- 参考スコア(独自算出の注目度): 83.48170683672427
- License:
- Abstract: Dynamic facial expression recognition (DFER) infers emotions from the temporal evolution of expressions, unlike static facial expression recognition (SFER), which relies solely on a single snapshot. This temporal analysis provides richer information and promises greater recognition capability. However, current DFER methods often exhibit unsatisfied performance largely due to fewer training samples compared to SFER. Given the inherent correlation between static and dynamic expressions, we hypothesize that leveraging the abundant SFER data can enhance DFER. To this end, we propose Static-for-Dynamic (S4D), a unified dual-modal learning framework that integrates SFER data as a complementary resource for DFER. Specifically, S4D employs dual-modal self-supervised pre-training on facial images and videos using a shared Vision Transformer (ViT) encoder-decoder architecture, yielding improved spatiotemporal representations. The pre-trained encoder is then fine-tuned on static and dynamic expression datasets in a multi-task learning setup to facilitate emotional information interaction. Unfortunately, vanilla multi-task learning in our study results in negative transfer. To address this, we propose an innovative Mixture of Adapter Experts (MoAE) module that facilitates task-specific knowledge acquisition while effectively extracting shared knowledge from both static and dynamic expression data. Extensive experiments demonstrate that S4D achieves a deeper understanding of DFER, setting new state-of-the-art performance on FERV39K, MAFW, and DFEW benchmarks, with weighted average recall (WAR) of 53.65\%, 58.44\%, and 76.68\%, respectively. Additionally, a systematic correlation analysis between SFER and DFER tasks is presented, which further elucidates the potential benefits of leveraging SFER.
- Abstract(参考訳): 動的表情認識(DFER)は、単一のスナップショットのみに依存する静的表情認識(SFER)とは異なり、表情の時間的進化から感情を推測する。
この時間解析は、よりリッチな情報を提供し、より大きな認識能力を約束する。
しかし、現在のDFER法は、SFERに比べてトレーニングサンプルが少ないため、ほとんど満足できないパフォーマンスを示すことが多い。
静的表現と動的表現の関連性を考えると、豊富なSFERデータを活用することでDFERを向上できるという仮説を立てる。
そこで本研究では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークであるStatic-for-Dynamic (S4D)を提案する。
具体的には、S4Dは、共有ビジョントランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用し、時空間表現が改善された。
事前トレーニングされたエンコーダは、静的および動的表現データセットをマルチタスク学習設定で微調整して、感情情報の対話を容易にする。
残念なことに,本研究におけるバニラマルチタスク学習は負の伝達をもたらす。
そこで本研究では,静的および動的表現データから共有知識を効果的に抽出しつつ,タスク固有の知識獲得を容易にする,新しいMixture of Adapter Experts(MoAE)モジュールを提案する。
大規模な実験により、S4DはDFERを深く理解し、FERV39K、MAFW、DFEWのベンチマークにそれぞれ53.65\%、58.44\%、76.68\%の重み付き平均リコール(WAR)を新たに設定した。
さらに、SFERタスクとDFERタスクの系統的相関分析を行い、SFERを活用する利点をさらに解明する。
関連論文リスト
- Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild [3.3905929183808796]
In-the-the-wild dynamic expression Recognition (DFER)は、感情に関連する表情を認識する上で重要な課題に遭遇する。
IFDD(Implicit Facial Dynamics Disentanglement framework)を提案する。
IFDDは感情に無関係な世界的文脈から感情に関連する動的情報を暗黙的に切り離す。
論文 参考訳(メタデータ) (2024-12-17T18:45:53Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint-Embedding Masked Autoencoder for Self-supervised Learning of
Dynamic Functional Connectivity from the Human Brain [18.165807360855435]
グラフニューラルネットワーク(GNN)は、人間の脳ネットワークと表現型を区別するための動的機能接続の学習において、有望であることを示している。
本稿では,計算機ビジョンにおけるJEPA(Joint Embedding Predictive Architecture)からインスピレーションを得た,時空間連成型自動エンコーダ(ST-JEMA)について紹介する。
論文 参考訳(メタデータ) (2024-03-11T04:49:41Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Intensity-Aware Loss for Dynamic Facial Expression Recognition in the
Wild [1.8604727699812171]
ビデオシーケンスは、特に現実世界のシナリオにおける表情のために、表現強度の異なるフレームを含むことが多い。
本稿では,機能マップのチャネルを再スケールするグローバル・コンボリューション・アテンション・ブロック(GCA)を提案する。
さらに,ネットワークが比較的低発現強度のサンプルを識別するために,トレーニングプロセスにおける強度認識損失(IAL)を導入する。
論文 参考訳(メタデータ) (2022-08-19T12:48:07Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。