論文の概要: Representation Learning and Identity Adversarial Training for Facial Behavior Understanding
- arxiv url: http://arxiv.org/abs/2407.11243v2
- Date: Thu, 08 May 2025 18:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:09.954988
- Title: Representation Learning and Identity Adversarial Training for Facial Behavior Understanding
- Title(参考訳): 顔行動理解のための表現学習とアイデンティティ支援訓練
- Authors: Mang Ning, Albert Ali Salah, Itir Onal Ertugrul,
- Abstract要約: AU検出の基本的な要素として,多種多様データと大規模データと主観的同一性正則化の2つを再検討する。
Face9M上でのマスク付きオートエンコーダの事前トレーニングは、AU検出と表情タスクにおいて強いパフォーマンスをもたらす。
提案手法であるFMAE(Facial Masked Autoencoder)とIATは単純で汎用的で効果的である。
- 参考スコア(独自算出の注目度): 3.350769246260559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Action Unit (AU) detection has gained significant attention as it enables the breakdown of complex facial expressions into individual muscle movements. In this paper, we revisit two fundamental factors in AU detection: diverse and large-scale data and subject identity regularization. Motivated by recent advances in foundation models, we highlight the importance of data and introduce Face9M, a diverse dataset comprising 9 million facial images from multiple public sources. Pretraining a masked autoencoder on Face9M yields strong performance in AU detection and facial expression tasks. More importantly, we emphasize that the Identity Adversarial Training (IAT) has not been well explored in AU tasks. To fill this gap, we first show that subject identity in AU datasets creates shortcut learning for the model and leads to sub-optimal solutions to AU predictions. Secondly, we demonstrate that strong IAT regularization is necessary to learn identity-invariant features. Finally, we elucidate the design space of IAT and empirically show that IAT circumvents the identity-based shortcut learning and results in a better solution. Our proposed methods, Facial Masked Autoencoder (FMAE) and IAT, are simple, generic and effective. Remarkably, the proposed FMAE-IAT approach achieves new state-of-the-art F1 scores on BP4D (67.1\%), BP4D+ (66.8\%), and DISFA (70.1\%) databases, significantly outperforming previous work. We release the code and model at https://github.com/forever208/FMAE-IAT.
- Abstract(参考訳): AU(Facial Action Unit)検出は、複雑な表情を個々の筋肉の動きに分解できるため、大きな注目を集めている。
本稿では,AU検出の基本的な要素として,多種多様データと大規模データと主観的同一性正則化の2つを再検討する。
基礎モデルの最近の進歩により、データの重要性を強調し、複数の公開ソースから900万の顔画像からなる多様なデータセットであるFace9Mを導入する。
Face9M上でのマスク付きオートエンコーダの事前トレーニングは、AU検出と表情タスクにおいて強いパフォーマンスをもたらす。
さらに重要なのは、IAT(Identity Adversarial Training)がAUタスクでは十分に研究されていないことです。
このギャップを埋めるために、まず、AUデータセットの主観的アイデンティティがモデルのショートカット学習を生成し、AU予測に対する準最適解をもたらすことを示す。
次に、ID不変の特徴を学習するためには、強力なIAT正規化が必要であることを示す。
最後に、IATの設計空間を解明し、IATがアイデンティティベースのショートカット学習を回避し、よりよいソリューションをもたらすことを実証的に示す。
提案手法であるFMAE(Facial Masked Autoencoder)とIATは単純で汎用的で効果的である。
注目すべきは、提案されたFMAE-IATアプローチは、BP4D (67.1\%)、BP4D+ (66.8\%)、disFA (70.1\%)のデータベース上で、新しい最先端のF1スコアを達成し、以前の作業よりも大幅に上回っていることである。
コードとモデルはhttps://github.com/forever208/FMAE-IAT.comで公開しています。
関連論文リスト
- Federated Learning for Face Recognition via Intra-subject Self-supervised Learning [3.9899461012388504]
対象を含まない顔認識モデルを学習するためのFedFS (Federated Learning for Personal Face Recognition via intra-ject Self-supervised Learning framework)を提案する。
FedFSは、ローカルモデルとグローバルモデルの集約された特徴を活用して、オフザシェルフモデルの表現に協力する2つの重要なコンポーネントから構成される。
我々は,DigiFace-1MおよびVGGFaceデータセットの総合的な実験を行い,従来の手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-23T08:43:42Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Emotic Masked Autoencoder with Attention Fusion for Facial Expression Recognition [1.4374467687356276]
本稿では,MAE-Face self-supervised learning (SSL) 法と多視点融合注意機構を組み合わせた表現分類手法を提案する。
我々は、重要な顔の特徴を強調表示して、そのような機能がモデルのガイドとして機能するかどうかを判断することを目的とした、実装が容易でトレーニングなしのフレームワークを提案する。
Aff-wild2データセットにおけるモデル性能の改善により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-19T16:21:47Z) - Contrastive Learning of Person-independent Representations for Facial
Action Unit Detection [70.60587475492065]
自己教師型AU表現学習信号を2次元で定式化する。
ビデオクリップ内でAU表現を学習し、個人に依存しない表現を学習するためのクロスアイデンティティ再構築機構を考案する。
提案手法は,他のコントラスト学習手法よりも優れており,自己教師と教師付きAU検出手法間の性能ギャップを著しく短縮する。
論文 参考訳(メタデータ) (2024-03-06T01:49:28Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - AU-Supervised Convolutional Vision Transformers for Synthetic Facial
Expression Recognition [12.661683851729679]
本稿では,ABAW(Affective Behavior Analysis in-the-wild)コンペティション2022の6つの基本的表現分類法について述べる。
合成データの曖昧さと顔行動単位(AU)の客観性から,AU情報を活用して性能向上を図る。
論文 参考訳(メタデータ) (2022-07-20T09:33:39Z) - Cross-subject Action Unit Detection with Meta Learning and
Transformer-based Relation Modeling [7.395396464857193]
メタラーニングに基づくクロスオブジェクトAU検出モデルを提案する。
複数のAUの潜伏関係を学習するために、トランスフォーマーに基づく関係学習モジュールを導入する。
提案手法は,2つの公開データセットBP4DとdisFAにおいて,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T08:17:59Z) - Learning Multi-dimensional Edge Feature-based AU Relation Graph for
Facial Action Unit Recognition [27.34564955127377]
顔行動ユニット(AU)の活性化は相互に影響を及ぼす。
既存のアプローチでは、顔ディスプレイの各ペアのAUに対して、明確にかつ明示的にそのようなキューを表現できない。
本稿では,AU間の関係を明確に記述するために,一意のグラフを深く学習するAU関係モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-05-02T03:38:00Z) - Deep Multi-task Multi-label CNN for Effective Facial Attribute
Classification [53.58763562421771]
DMM-CNN(ディープ・マルチタスク・マルチラベル・CNN)による効果的な顔属性分類(FAC)を提案する。
具体的には、DMM-CNNは、2つの密接に関連するタスク(顔のランドマーク検出とFAC)を共同で最適化し、マルチタスク学習を活用することにより、FACの性能を向上させる。
2つの異なるネットワークアーキテクチャは2つの属性のグループの特徴を抽出するために設計され、トレーニング中に各顔属性に損失重みを自動的に割り当てる新しい動的重み付け方式が提案されている。
論文 参考訳(メタデータ) (2020-02-10T12:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。