論文の概要: From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial
Expression Recognition in Videos
- arxiv url: http://arxiv.org/abs/2312.05447v1
- Date: Sat, 9 Dec 2023 03:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:46:13.483192
- Title: From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial
Expression Recognition in Videos
- Title(参考訳): 静的から動的へ:映像における表情認識のためのランドマーク対応画像モデル
- Authors: Yin Chen, Jia Li, Shiguang Shan, Meng Wang and Richang Hong
- Abstract要約: 野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
- 参考スコア(独自算出の注目度): 94.49851812388061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic facial expression recognition (DFER) in the wild is still hindered by
data limitations, e.g., insufficient quantity and diversity of pose, occlusion
and illumination, as well as the inherent ambiguity of facial expressions. In
contrast, static facial expression recognition (SFER) currently shows much
higher performance and can benefit from more abundant high-quality training
data. Moreover, the appearance features and dynamic dependencies of DFER remain
largely unexplored. To tackle these challenges, we introduce a novel
Static-to-Dynamic model (S2D) that leverages existing SFER knowledge and
dynamic information implicitly encoded in extracted facial landmark-aware
features, thereby significantly improving DFER performance. Firstly, we build
and train an image model for SFER, which incorporates a standard Vision
Transformer (ViT) and Multi-View Complementary Prompters (MCPs) only. Then, we
obtain our video model (i.e., S2D), for DFER, by inserting Temporal-Modeling
Adapters (TMAs) into the image model. MCPs enhance facial expression features
with landmark-aware features inferred by an off-the-shelf facial landmark
detector. And the TMAs capture and model the relationships of dynamic changes
in facial expressions, effectively extending the pre-trained image model for
videos. Notably, MCPs and TMAs only increase a fraction of trainable parameters
(less than +10\%) to the original image model. Moreover, we present a novel
Emotion-Anchors (i.e., reference samples for each emotion category) based
Self-Distillation Loss to reduce the detrimental influence of ambiguous emotion
labels, further enhancing our S2D. Experiments conducted on popular SFER and
DFER datasets show that we achieve the state of the art.
- Abstract(参考訳): 野生における動的表情認識(DFER)は、例えば、ポーズの量や多様性、隠蔽、照明の不足、および表情の本来のあいまいさなど、データ制限によって依然として妨げられている。
対照的に、静的表情認識(SFER)は、現在、はるかに高いパフォーマンスを示し、より豊富な高品質のトレーニングデータから恩恵を受けることができる。
さらに、DFERの外観の特徴と動的依存関係は、まだほとんど解明されていない。
これらの課題に対処するために,既存のSFER知識と,抽出した顔のランドマーク認識機能に暗黙的に符号化された動的情報を活用し,DFER性能を大幅に向上する新しい静的・動的モデル(S2D)を提案する。
まず、標準ビジョントランスフォーマ(ViT)とマルチビュー補完プロンプタ(MCP)のみを組み込んだSFERの画像モデルを構築し、訓練する。
そして,画像モデルに時間モデル適応器(TMA)を挿入することにより,DFERのためのビデオモデル(S2D)を得る。
MCPは、市販の顔ランドマーク検出器によって推測されるランドマークを意識した表情特徴を増強する。
そして、TMAは表情の動的変化の関係を捉え、モデル化し、ビデオの事前学習画像モデルを効果的に拡張する。
特に、MPPとTMAは、トレーニング可能なパラメータのごく一部(+10\%未満)を元の画像モデルにのみ増加させる。
さらに,不明瞭な感情ラベルの有害影響を低減し,s2dをさらに高めるために,自己蒸留損失に基づく新しい感情アンカー(各感情カテゴリの参照サンプル)を提案する。
人気のあるsferデータセットとdferデータセットで行った実験は、我々は芸術の状態を成し遂げたことを示している。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - UniLearn: Enhancing Dynamic Facial Expression Recognition through Unified Pre-Training and Fine-Tuning on Images and Videos [83.48170683672427]
UniLearnは、静的表情認識データを統合してDFERタスクを強化する統一学習パラダイムである。
UniLearnは、FERV39K、MAFW、DFEWのベンチマークにおいて、それぞれ53.65%、58.44%、76.68%の重み付き平均リコール(WAR)で常に最先端のパフォーマンスを保っている。
論文 参考訳(メタデータ) (2024-09-10T01:57:57Z) - FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars [36.96390906514729]
MegaPortraitsモデルは、この領域で最先端の結果を示している。
EMOPortraitsモデルを紹介します。 強靭で非対称な顔表現を忠実にサポートするモデルの能力を強化する。
そこで本研究では,多彩な表情と非対称な表情を特徴とする新しい多視点ビデオデータセットを提案する。
論文 参考訳(メタデータ) (2024-04-29T21:23:29Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Intensity-Aware Loss for Dynamic Facial Expression Recognition in the
Wild [1.8604727699812171]
ビデオシーケンスは、特に現実世界のシナリオにおける表情のために、表現強度の異なるフレームを含むことが多い。
本稿では,機能マップのチャネルを再スケールするグローバル・コンボリューション・アテンション・ブロック(GCA)を提案する。
さらに,ネットワークが比較的低発現強度のサンプルを識別するために,トレーニングプロセスにおける強度認識損失(IAL)を導入する。
論文 参考訳(メタデータ) (2022-08-19T12:48:07Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - Unsupervised Facial Action Unit Intensity Estimation via Differentiable
Optimization [45.07851622835555]
顔画像からの顔AU強度推定のための教師なしフレームワークGE-Netを提案する。
本フレームワークは,入力画像に一致するように顔パラメータを反復的に更新する,微分可能な最適化を行う。
実験により,本手法は既存手法と比較して最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-04-13T12:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。