論文の概要: From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial
Expression Recognition in Videos
- arxiv url: http://arxiv.org/abs/2312.05447v1
- Date: Sat, 9 Dec 2023 03:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:46:13.483192
- Title: From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial
Expression Recognition in Videos
- Title(参考訳): 静的から動的へ:映像における表情認識のためのランドマーク対応画像モデル
- Authors: Yin Chen, Jia Li, Shiguang Shan, Meng Wang and Richang Hong
- Abstract要約: 野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
- 参考スコア(独自算出の注目度): 94.49851812388061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic facial expression recognition (DFER) in the wild is still hindered by
data limitations, e.g., insufficient quantity and diversity of pose, occlusion
and illumination, as well as the inherent ambiguity of facial expressions. In
contrast, static facial expression recognition (SFER) currently shows much
higher performance and can benefit from more abundant high-quality training
data. Moreover, the appearance features and dynamic dependencies of DFER remain
largely unexplored. To tackle these challenges, we introduce a novel
Static-to-Dynamic model (S2D) that leverages existing SFER knowledge and
dynamic information implicitly encoded in extracted facial landmark-aware
features, thereby significantly improving DFER performance. Firstly, we build
and train an image model for SFER, which incorporates a standard Vision
Transformer (ViT) and Multi-View Complementary Prompters (MCPs) only. Then, we
obtain our video model (i.e., S2D), for DFER, by inserting Temporal-Modeling
Adapters (TMAs) into the image model. MCPs enhance facial expression features
with landmark-aware features inferred by an off-the-shelf facial landmark
detector. And the TMAs capture and model the relationships of dynamic changes
in facial expressions, effectively extending the pre-trained image model for
videos. Notably, MCPs and TMAs only increase a fraction of trainable parameters
(less than +10\%) to the original image model. Moreover, we present a novel
Emotion-Anchors (i.e., reference samples for each emotion category) based
Self-Distillation Loss to reduce the detrimental influence of ambiguous emotion
labels, further enhancing our S2D. Experiments conducted on popular SFER and
DFER datasets show that we achieve the state of the art.
- Abstract(参考訳): 野生における動的表情認識(DFER)は、例えば、ポーズの量や多様性、隠蔽、照明の不足、および表情の本来のあいまいさなど、データ制限によって依然として妨げられている。
対照的に、静的表情認識(SFER)は、現在、はるかに高いパフォーマンスを示し、より豊富な高品質のトレーニングデータから恩恵を受けることができる。
さらに、DFERの外観の特徴と動的依存関係は、まだほとんど解明されていない。
これらの課題に対処するために,既存のSFER知識と,抽出した顔のランドマーク認識機能に暗黙的に符号化された動的情報を活用し,DFER性能を大幅に向上する新しい静的・動的モデル(S2D)を提案する。
まず、標準ビジョントランスフォーマ(ViT)とマルチビュー補完プロンプタ(MCP)のみを組み込んだSFERの画像モデルを構築し、訓練する。
そして,画像モデルに時間モデル適応器(TMA)を挿入することにより,DFERのためのビデオモデル(S2D)を得る。
MCPは、市販の顔ランドマーク検出器によって推測されるランドマークを意識した表情特徴を増強する。
そして、TMAは表情の動的変化の関係を捉え、モデル化し、ビデオの事前学習画像モデルを効果的に拡張する。
特に、MPPとTMAは、トレーニング可能なパラメータのごく一部(+10\%未満)を元の画像モデルにのみ増加させる。
さらに,不明瞭な感情ラベルの有害影響を低減し,s2dをさらに高めるために,自己蒸留損失に基づく新しい感情アンカー(各感情カテゴリの参照サンプル)を提案する。
人気のあるsferデータセットとdferデータセットで行った実験は、我々は芸術の状態を成し遂げたことを示している。
関連論文リスト
- EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - Exploring Large-scale Unlabeled Faces to Enhance Facial Expression
Recognition [12.677143408225167]
本研究では、ラベルのない顔データを用いて表現認識モデルを効果的に訓練する半教師付き学習フレームワークを提案する。
本手法では,顔認識データを完全に活用するために,信頼度を適応的に調整できる動的しきい値モジュールを用いる。
ABAW5 EXPRタスクでは,オフィシャル検証セットにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2023-03-15T13:43:06Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Intensity-Aware Loss for Dynamic Facial Expression Recognition in the
Wild [1.8604727699812171]
ビデオシーケンスは、特に現実世界のシナリオにおける表情のために、表現強度の異なるフレームを含むことが多い。
本稿では,機能マップのチャネルを再スケールするグローバル・コンボリューション・アテンション・ブロック(GCA)を提案する。
さらに,ネットワークが比較的低発現強度のサンプルを識別するために,トレーニングプロセスにおける強度認識損失(IAL)を導入する。
論文 参考訳(メタデータ) (2022-08-19T12:48:07Z) - FDNeRF: Few-shot Dynamic Neural Radiance Fields for Face Reconstruction
and Expression Editing [27.014582934266492]
本研究では,3次元顔の再構成と表現編集が可能な最初のNeRF方式であるFew-shot Dynamic Neural Radiance Field (FDNeRF)を提案する。
入力として高密度画像を必要とする既存の動的NeRFと異なり、単一のアイデンティティのためにのみモデル化できるため、少ないショット入力を持つ異なる人物間での顔再構成が可能となる。
論文 参考訳(メタデータ) (2022-08-11T11:05:59Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - Unsupervised Facial Action Unit Intensity Estimation via Differentiable
Optimization [45.07851622835555]
顔画像からの顔AU強度推定のための教師なしフレームワークGE-Netを提案する。
本フレームワークは,入力画像に一致するように顔パラメータを反復的に更新する,微分可能な最適化を行う。
実験により,本手法は既存手法と比較して最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-04-13T12:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。