論文の概要: UniLearn: Enhancing Dynamic Facial Expression Recognition through Unified Pre-Training and Fine-Tuning on Images and Videos
- arxiv url: http://arxiv.org/abs/2409.06154v1
- Date: Tue, 10 Sep 2024 01:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:20:45.977320
- Title: UniLearn: Enhancing Dynamic Facial Expression Recognition through Unified Pre-Training and Fine-Tuning on Images and Videos
- Title(参考訳): UniLearn: 画像とビデオの統一事前学習と微調整による動的顔表情認識の実現
- Authors: Yin Chen, Jia Li, Yu Zhang, Zhenzhen Hu, Shiguang Shan, Meng Wang, Richang Hong,
- Abstract要約: UniLearnは、静的表情認識データを統合してDFERタスクを強化する統一学習パラダイムである。
UniLearnは、FERV39K、MAFW、DFEWのベンチマークにおいて、それぞれ53.65%、58.44%、76.68%の重み付き平均リコール(WAR)で常に最先端のパフォーマンスを保っている。
- 参考スコア(独自算出の注目度): 83.48170683672427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic facial expression recognition (DFER) is essential for understanding human emotions and behavior. However, conventional DFER methods, which primarily use dynamic facial data, often underutilize static expression images and their labels, limiting their performance and robustness. To overcome this, we introduce UniLearn, a novel unified learning paradigm that integrates static facial expression recognition (SFER) data to enhance DFER task. UniLearn employs a dual-modal self-supervised pre-training method, leveraging both facial expression images and videos to enhance a ViT model's spatiotemporal representation capability. Then, the pre-trained model is fine-tuned on both static and dynamic expression datasets using a joint fine-tuning strategy. To prevent negative transfer during joint fine-tuning, we introduce an innovative Mixture of Adapter Experts (MoAE) module that enables task-specific knowledge acquisition and effectively integrates information from both static and dynamic expression data. Extensive experiments demonstrate UniLearn's effectiveness in leveraging complementary information from static and dynamic facial data, leading to more accurate and robust DFER. UniLearn consistently achieves state-of-the-art performance on FERV39K, MAFW, and DFEW benchmarks, with weighted average recall (WAR) of 53.65\%, 58.44\%, and 76.68\%, respectively. The source code and model weights will be publicly available at \url{https://github.com/MSA-LMC/UniLearn}.
- Abstract(参考訳): 動的表情認識(DFER)は人間の感情や行動を理解するのに不可欠である。
しかし、従来のDFER法は主に動的顔データを用いており、静的な表情画像とそのラベルを未利用であり、その性能と頑健さを制限している。
この問題を解決するために,静的表情認識(SFER)データを統合してDFERタスクを強化する,新しい統合学習パラダイムであるUniLearnを導入する。
UniLearnは、VTモデルの時空間表現能力を高めるために、表情画像とビデオの両方を活用する、デュアルモーダルな自己教師付き事前訓練方式を採用している。
次に、事前学習されたモデルは、共同微調整戦略を用いて、静的および動的表現データセットの両方で微調整される。
協調微調整中の負の伝達を防止するため,タスク固有の知識の獲得を可能にし,静的および動的表現データからの情報を効果的に統合するMoAEモジュールを導入した。
大規模な実験は、UniLearnが静的および動的顔データから相補的な情報を活用する効果を示し、より正確で堅牢なDFERをもたらす。
UniLearnは、それぞれ53.65\%、58.44\%、76.68\%の重み付き平均リコール(WAR)を持つFERV39K、MAFW、DFEWのベンチマークで、最先端のパフォーマンスを一貫して達成している。
ソースコードとモデルの重み付けは \url{https://github.com/MSA-LMC/UniLearn} で公開される。
関連論文リスト
- Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild [3.3905929183808796]
In-the-the-wild dynamic expression Recognition (DFER)は、感情に関連する表情を認識する上で重要な課題に遭遇する。
IFDD(Implicit Facial Dynamics Disentanglement framework)を提案する。
IFDDは感情に無関係な世界的文脈から感情に関連する動的情報を暗黙的に切り離す。
論文 参考訳(メタデータ) (2024-12-17T18:45:53Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint-Embedding Masked Autoencoder for Self-supervised Learning of
Dynamic Functional Connectivity from the Human Brain [18.165807360855435]
グラフニューラルネットワーク(GNN)は、人間の脳ネットワークと表現型を区別するための動的機能接続の学習において、有望であることを示している。
本稿では,計算機ビジョンにおけるJEPA(Joint Embedding Predictive Architecture)からインスピレーションを得た,時空間連成型自動エンコーダ(ST-JEMA)について紹介する。
論文 参考訳(メタデータ) (2024-03-11T04:49:41Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Intensity-Aware Loss for Dynamic Facial Expression Recognition in the
Wild [1.8604727699812171]
ビデオシーケンスは、特に現実世界のシナリオにおける表情のために、表現強度の異なるフレームを含むことが多い。
本稿では,機能マップのチャネルを再スケールするグローバル・コンボリューション・アテンション・ブロック(GCA)を提案する。
さらに,ネットワークが比較的低発現強度のサンプルを識別するために,トレーニングプロセスにおける強度認識損失(IAL)を導入する。
論文 参考訳(メタデータ) (2022-08-19T12:48:07Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。