論文の概要: Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data
- arxiv url: http://arxiv.org/abs/2409.06154v2
- Date: Fri, 10 Jan 2025 09:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:24:54.891463
- Title: Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data
- Title(参考訳): 動的の静的:静的表現データを用いた動的表情のより深い理解に向けて
- Authors: Yin Chen, Jia Li, Yu Zhang, Zhenzhen Hu, Shiguang Shan, Meng Wang, Richang Hong,
- Abstract要約: 本稿では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークを提案する。
S4Dは、共有トランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用する。
実験により、S4DはDFERをより深く理解し、新しい最先端のパフォーマンスを設定できることが示された。
- 参考スコア(独自算出の注目度): 83.48170683672427
- License:
- Abstract: Dynamic facial expression recognition (DFER) infers emotions from the temporal evolution of expressions, unlike static facial expression recognition (SFER), which relies solely on a single snapshot. This temporal analysis provides richer information and promises greater recognition capability. However, current DFER methods often exhibit unsatisfied performance largely due to fewer training samples compared to SFER. Given the inherent correlation between static and dynamic expressions, we hypothesize that leveraging the abundant SFER data can enhance DFER. To this end, we propose Static-for-Dynamic (S4D), a unified dual-modal learning framework that integrates SFER data as a complementary resource for DFER. Specifically, S4D employs dual-modal self-supervised pre-training on facial images and videos using a shared Vision Transformer (ViT) encoder-decoder architecture, yielding improved spatiotemporal representations. The pre-trained encoder is then fine-tuned on static and dynamic expression datasets in a multi-task learning setup to facilitate emotional information interaction. Unfortunately, vanilla multi-task learning in our study results in negative transfer. To address this, we propose an innovative Mixture of Adapter Experts (MoAE) module that facilitates task-specific knowledge acquisition while effectively extracting shared knowledge from both static and dynamic expression data. Extensive experiments demonstrate that S4D achieves a deeper understanding of DFER, setting new state-of-the-art performance on FERV39K, MAFW, and DFEW benchmarks, with weighted average recall (WAR) of 53.65\%, 58.44\%, and 76.68\%, respectively. Additionally, a systematic correlation analysis between SFER and DFER tasks is presented, which further elucidates the potential benefits of leveraging SFER.
- Abstract(参考訳): 動的表情認識(DFER)は、単一のスナップショットのみに依存する静的表情認識(SFER)とは異なり、表情の時間的進化から感情を推測する。
この時間解析は、よりリッチな情報を提供し、より大きな認識能力を約束する。
しかし、現在のDFER法は、SFERに比べてトレーニングサンプルが少ないため、ほとんど満足できないパフォーマンスを示すことが多い。
静的表現と動的表現の関連性を考えると、豊富なSFERデータを活用することでDFERを向上できるという仮説を立てる。
そこで本研究では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークであるStatic-for-Dynamic (S4D)を提案する。
具体的には、S4Dは、共有ビジョントランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用し、時空間表現が改善された。
事前トレーニングされたエンコーダは、静的および動的表現データセットをマルチタスク学習設定で微調整して、感情情報の対話を容易にする。
残念なことに,本研究におけるバニラマルチタスク学習は負の伝達をもたらす。
そこで本研究では,静的および動的表現データから共有知識を効果的に抽出しつつ,タスク固有の知識獲得を容易にする,新しいMixture of Adapter Experts(MoAE)モジュールを提案する。
大規模な実験により、S4DはDFERを深く理解し、FERV39K、MAFW、DFEWのベンチマークにそれぞれ53.65\%、58.44\%、76.68\%の重み付き平均リコール(WAR)を新たに設定した。
さらに、SFERタスクとDFERタスクの系統的相関分析を行い、SFERを活用する利点をさらに解明する。
関連論文リスト
- Boosting Unconstrained Face Recognition with Targeted Style Adversary [10.428185253933004]
ラベル付き集合とラベルなし集合のインスタンスレベルの特徴統計を補間することにより、トレーニングデータをシンプルかつ効果的に拡張する手法を提案する。
TSA(Targeted Style Adversary)と呼ばれるこの手法は,入力領域が特徴統計に反映され,(ii)顔認識モデルの性能がスタイル情報に影響されるという2つの観測結果によって動機付けられている。
論文 参考訳(メタデータ) (2024-08-14T16:13:03Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。
HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。
連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文 参考訳(メタデータ) (2024-04-21T02:21:30Z) - Alleviating Catastrophic Forgetting in Facial Expression Recognition with Emotion-Centered Models [49.3179290313959]
感情中心型生成的リプレイ (ECgr) は, 生成的対向ネットワークから合成画像を統合することで, この課題に対処する。
ECgrは、生成された画像の忠実性を保証するために品質保証アルゴリズムを組み込んでいる。
4つの多様な表情データセットに対する実験結果から,擬似リハーサル法により生成されたイメージを組み込むことで,ターゲットとするデータセットとソースデータセットのトレーニングが促進されることが示された。
論文 参考訳(メタデータ) (2024-04-18T15:28:34Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Exploring Large-scale Unlabeled Faces to Enhance Facial Expression
Recognition [12.677143408225167]
本研究では、ラベルのない顔データを用いて表現認識モデルを効果的に訓練する半教師付き学習フレームワークを提案する。
本手法では,顔認識データを完全に活用するために,信頼度を適応的に調整できる動的しきい値モジュールを用いる。
ABAW5 EXPRタスクでは,オフィシャル検証セットにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2023-03-15T13:43:06Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Noisy Student Training using Body Language Dataset Improves Facial
Expression Recognition [10.529781894367877]
本稿では,ラベル付きデータセットと非ラベル付きデータセットを組み合わせた自己学習手法を提案する。
実験分析により,ノイズの多い学生ネットワークを反復的にトレーニングすることで,より優れた結果が得られることが示された。
提案手法は,ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-08-06T13:45:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。