論文の概要: Representation Learning and Identity Adversarial Training for Facial Behavior Understanding
- arxiv url: http://arxiv.org/abs/2407.11243v1
- Date: Mon, 15 Jul 2024 21:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:11:45.564824
- Title: Representation Learning and Identity Adversarial Training for Facial Behavior Understanding
- Title(参考訳): 顔行動理解のための表現学習とアイデンティティ支援訓練
- Authors: Mang Ning, Albert Ali Salah, Itir Onal Ertugrul,
- Abstract要約: 主観的同一性はモデルに対するショートカット学習を提供し、AU予測に対する準最適解をもたらすことを示す。
我々はIAT(Identity Adrial Training)を提案し、アイデンティティ不変の特徴を学習するために強力なIAT正規化が必要であることを実証する。
提案手法であるFMAE(Facial Masked Autoencoder)とIATは単純で汎用的で効果的である。
- 参考スコア(独自算出の注目度): 3.350769246260559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Action Unit (AU) detection has gained significant research attention as AUs contain complex expression information. In this paper, we unpack two fundamental factors in AU detection: data and subject identity regularization, respectively. Motivated by recent advances in foundation models, we highlight the importance of data and collect a diverse dataset Face9M, comprising 9 million facial images, from multiple public resources. Pretraining a masked autoencoder on Face9M yields strong performance in AU detection and facial expression tasks. We then show that subject identity in AU datasets provides a shortcut learning for the model and leads to sub-optimal solutions to AU predictions. To tackle this generic issue of AU tasks, we propose Identity Adversarial Training (IAT) and demonstrate that a strong IAT regularization is necessary to learn identity-invariant features. Furthermore, we elucidate the design space of IAT and empirically show that IAT circumvents the identity shortcut learning and results in a better solution. Our proposed methods, Facial Masked Autoencoder (FMAE) and IAT, are simple, generic and effective. Remarkably, the proposed FMAE-IAT approach achieves new state-of-the-art F1 scores on BP4D (67.1\%), BP4D+ (66.8\%), and DISFA (70.1\%) databases, significantly outperforming previous work. We release the code and model at https://github.com/forever208/FMAE-IAT, the first open-sourced facial model pretrained on 9 million diverse images.
- Abstract(参考訳): AUには複雑な表情情報が含まれているため、顔行動ユニット(AU)検出が注目されている。
本稿では,AU検出における基本因子として,データと主観的同一性正則化の2つをまとめる。
基礎モデルの最近の進歩に触発されて、データの重要性を強調し、複数の公開リソースから900万の顔画像からなる多様なデータセットFace9Mを収集する。
Face9M上でのマスク付きオートエンコーダの事前トレーニングは、AU検出と表情タスクにおいて強いパフォーマンスをもたらす。
次に、AUデータセットにおける主観的同一性は、モデルに対するショートカット学習を提供し、AU予測に対する準最適解をもたらすことを示す。
このようなAUタスクの一般的な問題に対処するために、IAT(Identity Adversarial Training)を提案し、アイデンティティ不変の特徴を学習するために強力なIAT正規化が必要であることを実証する。
さらに、IATの設計空間を解明し、IATがアイデンティティショートカット学習を回避し、よりよいソリューションをもたらすことを実証的に示す。
提案手法であるFMAE(Facial Masked Autoencoder)とIATは単純で汎用的で効果的である。
注目すべきは、提案されたFMAE-IATアプローチは、BP4D (67.1\%)、BP4D+ (66.8\%)、disFA (70.1\%)のデータベース上で、新しい最先端のF1スコアを達成し、以前の作業よりも大幅に上回っていることである。
私たちはコードとモデルをhttps://github.com/forever208/FMAE-IATでリリースしています。
関連論文リスト
- Federated Learning for Face Recognition via Intra-subject Self-supervised Learning [3.9899461012388504]
対象を含まない顔認識モデルを学習するためのFedFS (Federated Learning for Personal Face Recognition via intra-ject Self-supervised Learning framework)を提案する。
FedFSは、ローカルモデルとグローバルモデルの集約された特徴を活用して、オフザシェルフモデルの表現に協力する2つの重要なコンポーネントから構成される。
我々は,DigiFace-1MおよびVGGFaceデータセットの総合的な実験を行い,従来の手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-23T08:43:42Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Emotic Masked Autoencoder with Attention Fusion for Facial Expression Recognition [1.4374467687356276]
本稿では,MAE-Face self-supervised learning (SSL) 法と多視点融合注意機構を組み合わせた表現分類手法を提案する。
我々は、重要な顔の特徴を強調表示して、そのような機能がモデルのガイドとして機能するかどうかを判断することを目的とした、実装が容易でトレーニングなしのフレームワークを提案する。
Aff-wild2データセットにおけるモデル性能の改善により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-19T16:21:47Z) - Contrastive Learning of Person-independent Representations for Facial
Action Unit Detection [70.60587475492065]
自己教師型AU表現学習信号を2次元で定式化する。
ビデオクリップ内でAU表現を学習し、個人に依存しない表現を学習するためのクロスアイデンティティ再構築機構を考案する。
提案手法は,他のコントラスト学習手法よりも優れており,自己教師と教師付きAU検出手法間の性能ギャップを著しく短縮する。
論文 参考訳(メタデータ) (2024-03-06T01:49:28Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - AU-Supervised Convolutional Vision Transformers for Synthetic Facial
Expression Recognition [12.661683851729679]
本稿では,ABAW(Affective Behavior Analysis in-the-wild)コンペティション2022の6つの基本的表現分類法について述べる。
合成データの曖昧さと顔行動単位(AU)の客観性から,AU情報を活用して性能向上を図る。
論文 参考訳(メタデータ) (2022-07-20T09:33:39Z) - Cross-subject Action Unit Detection with Meta Learning and
Transformer-based Relation Modeling [7.395396464857193]
メタラーニングに基づくクロスオブジェクトAU検出モデルを提案する。
複数のAUの潜伏関係を学習するために、トランスフォーマーに基づく関係学習モジュールを導入する。
提案手法は,2つの公開データセットBP4DとdisFAにおいて,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T08:17:59Z) - Learning Multi-dimensional Edge Feature-based AU Relation Graph for
Facial Action Unit Recognition [27.34564955127377]
顔行動ユニット(AU)の活性化は相互に影響を及ぼす。
既存のアプローチでは、顔ディスプレイの各ペアのAUに対して、明確にかつ明示的にそのようなキューを表現できない。
本稿では,AU間の関係を明確に記述するために,一意のグラフを深く学習するAU関係モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-05-02T03:38:00Z) - Deep Multi-task Multi-label CNN for Effective Facial Attribute
Classification [53.58763562421771]
DMM-CNN(ディープ・マルチタスク・マルチラベル・CNN)による効果的な顔属性分類(FAC)を提案する。
具体的には、DMM-CNNは、2つの密接に関連するタスク(顔のランドマーク検出とFAC)を共同で最適化し、マルチタスク学習を活用することにより、FACの性能を向上させる。
2つの異なるネットワークアーキテクチャは2つの属性のグループの特徴を抽出するために設計され、トレーニング中に各顔属性に損失重みを自動的に割り当てる新しい動的重み付け方式が提案されている。
論文 参考訳(メタデータ) (2020-02-10T12:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。