論文の概要: UniLearn: Enhancing Dynamic Facial Expression Recognition through Unified Pre-Training and Fine-Tuning on Images and Videos
- arxiv url: http://arxiv.org/abs/2409.06154v1
- Date: Tue, 10 Sep 2024 01:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-11 19:20:45.977320
- Title: UniLearn: Enhancing Dynamic Facial Expression Recognition through Unified Pre-Training and Fine-Tuning on Images and Videos
- Title(参考訳): UniLearn: 画像とビデオの統一事前学習と微調整による動的顔表情認識の実現
- Authors: Yin Chen, Jia Li, Yu Zhang, Zhenzhen Hu, Shiguang Shan, Meng Wang, Richang Hong,
- Abstract要約: UniLearnは、静的表情認識データを統合してDFERタスクを強化する統一学習パラダイムである。
UniLearnは、FERV39K、MAFW、DFEWのベンチマークにおいて、それぞれ53.65%、58.44%、76.68%の重み付き平均リコール(WAR)で常に最先端のパフォーマンスを保っている。
- 参考スコア(独自算出の注目度): 83.48170683672427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic facial expression recognition (DFER) is essential for understanding human emotions and behavior. However, conventional DFER methods, which primarily use dynamic facial data, often underutilize static expression images and their labels, limiting their performance and robustness. To overcome this, we introduce UniLearn, a novel unified learning paradigm that integrates static facial expression recognition (SFER) data to enhance DFER task. UniLearn employs a dual-modal self-supervised pre-training method, leveraging both facial expression images and videos to enhance a ViT model's spatiotemporal representation capability. Then, the pre-trained model is fine-tuned on both static and dynamic expression datasets using a joint fine-tuning strategy. To prevent negative transfer during joint fine-tuning, we introduce an innovative Mixture of Adapter Experts (MoAE) module that enables task-specific knowledge acquisition and effectively integrates information from both static and dynamic expression data. Extensive experiments demonstrate UniLearn's effectiveness in leveraging complementary information from static and dynamic facial data, leading to more accurate and robust DFER. UniLearn consistently achieves state-of-the-art performance on FERV39K, MAFW, and DFEW benchmarks, with weighted average recall (WAR) of 53.65\%, 58.44\%, and 76.68\%, respectively. The source code and model weights will be publicly available at \url{https://github.com/MSA-LMC/UniLearn}.
- Abstract(参考訳): 動的表情認識(DFER)は人間の感情や行動を理解するのに不可欠である。
しかし、従来のDFER法は主に動的顔データを用いており、静的な表情画像とそのラベルを未利用であり、その性能と頑健さを制限している。
この問題を解決するために,静的表情認識(SFER)データを統合してDFERタスクを強化する,新しい統合学習パラダイムであるUniLearnを導入する。
UniLearnは、VTモデルの時空間表現能力を高めるために、表情画像とビデオの両方を活用する、デュアルモーダルな自己教師付き事前訓練方式を採用している。
次に、事前学習されたモデルは、共同微調整戦略を用いて、静的および動的表現データセットの両方で微調整される。
協調微調整中の負の伝達を防止するため,タスク固有の知識の獲得を可能にし,静的および動的表現データからの情報を効果的に統合するMoAEモジュールを導入した。
大規模な実験は、UniLearnが静的および動的顔データから相補的な情報を活用する効果を示し、より正確で堅牢なDFERをもたらす。
UniLearnは、それぞれ53.65\%、58.44\%、76.68\%の重み付き平均リコール(WAR)を持つFERV39K、MAFW、DFEWのベンチマークで、最先端のパフォーマンスを一貫して達成している。
ソースコードとモデルの重み付けは \url{https://github.com/MSA-LMC/UniLearn} で公開される。
関連論文リスト
- Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - MIDAS: Mixing Ambiguous Data with Soft Labels for Dynamic Facial Expression Recognition [11.89503569570198]
動的表情認識(DFER)のためのデータ拡張手法MIDASを提案する。
MIDASでは、ビデオフレームの対とその対応する感情クラスラベルを凸的に組み合わせてトレーニングデータを拡張する。
その結果、MIDASによって強化されたデータに基づいてトレーニングされたモデルは、元のデータセットでトレーニングされた既存の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-28T21:39:19Z) - Robust Dynamic Facial Expression Recognition [6.626374248579249]
本稿では,硬質試料と雑音試料を区別する頑健な手法を提案する。
ビデオの主表現を識別するために、キー表現再サンプリングフレームワークとデュアルストリーム階層ネットワークを提案する。
提案手法は,DFER における現状-Of-The-Art 手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-22T07:48:12Z) - Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild [3.3905929183808796]
In-the-the-wild dynamic expression Recognition (DFER)は、感情に関連する表情を認識する上で重要な課題に遭遇する。
IFDD(Implicit Facial Dynamics Disentanglement framework)を提案する。
IFDDは感情に無関係な世界的文脈から感情に関連する動的情報を暗黙的に切り離す。
論文 参考訳(メタデータ) (2024-12-17T18:45:53Z) - Boosting Unconstrained Face Recognition with Targeted Style Adversary [10.428185253933004]
ラベル付き集合とラベルなし集合のインスタンスレベルの特徴統計を補間することにより、トレーニングデータをシンプルかつ効果的に拡張する手法を提案する。
TSA(Targeted Style Adversary)と呼ばれるこの手法は,入力領域が特徴統計に反映され,(ii)顔認識モデルの性能がスタイル情報に影響されるという2つの観測結果によって動機付けられている。
論文 参考訳(メタデータ) (2024-08-14T16:13:03Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。
HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。
連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文 参考訳(メタデータ) (2024-04-21T02:21:30Z) - Alleviating Catastrophic Forgetting in Facial Expression Recognition with Emotion-Centered Models [49.3179290313959]
感情中心型生成的リプレイ (ECgr) は, 生成的対向ネットワークから合成画像を統合することで, この課題に対処する。
ECgrは、生成された画像の忠実性を保証するために品質保証アルゴリズムを組み込んでいる。
4つの多様な表情データセットに対する実験結果から,擬似リハーサル法により生成されたイメージを組み込むことで,ターゲットとするデータセットとソースデータセットのトレーニングが促進されることが示された。
論文 参考訳(メタデータ) (2024-04-18T15:28:34Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint-Embedding Masked Autoencoder for Self-supervised Learning of
Dynamic Functional Connectivity from the Human Brain [18.165807360855435]
グラフニューラルネットワーク(GNN)は、人間の脳ネットワークと表現型を区別するための動的機能接続の学習において、有望であることを示している。
本稿では,計算機ビジョンにおけるJEPA(Joint Embedding Predictive Architecture)からインスピレーションを得た,時空間連成型自動エンコーダ(ST-JEMA)について紹介する。
論文 参考訳(メタデータ) (2024-03-11T04:49:41Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Exploring Large-scale Unlabeled Faces to Enhance Facial Expression
Recognition [12.677143408225167]
本研究では、ラベルのない顔データを用いて表現認識モデルを効果的に訓練する半教師付き学習フレームワークを提案する。
本手法では,顔認識データを完全に活用するために,信頼度を適応的に調整できる動的しきい値モジュールを用いる。
ABAW5 EXPRタスクでは,オフィシャル検証セットにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2023-03-15T13:43:06Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Noisy Student Training using Body Language Dataset Improves Facial
Expression Recognition [10.529781894367877]
本稿では,ラベル付きデータセットと非ラベル付きデータセットを組み合わせた自己学習手法を提案する。
実験分析により,ノイズの多い学生ネットワークを反復的にトレーニングすることで,より優れた結果が得られることが示された。
提案手法は,ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-08-06T13:45:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。