論文の概要: Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers
- arxiv url: http://arxiv.org/abs/2207.11081v4
- Date: Thu, 10 Oct 2024 02:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:34.947563
- Title: Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers
- Title(参考訳): 視覚変換器を用いたポーカーフェイス生成による表情からの感情分離と認識
- Authors: Jia Li, Jiantao Nie, Dan Guo, Richang Hong, Meng Wang,
- Abstract要約: 我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
- 参考スコア(独自算出の注目度): 57.1091606948826
- License:
- Abstract: Representation learning and feature disentanglement have garnered significant research interest in the field of facial expression recognition (FER). The inherent ambiguity of emotion labels poses challenges for conventional supervised representation learning methods. Moreover, directly learning the mapping from a facial expression image to an emotion label lacks explicit supervision signals for capturing fine-grained facial features. In this paper, we propose a novel FER model, named Poker Face Vision Transformer or PF-ViT, to address these challenges. PF-ViT aims to separate and recognize the disturbance-agnostic emotion from a static facial image via generating its corresponding poker face, without the need for paired images. Inspired by the Facial Action Coding System, we regard an expressive face as the combined result of a set of facial muscle movements on one's poker face (i.e., an emotionless face). PF-ViT utilizes vanilla Vision Transformers, and its components are firstly pre-trained as Masked Autoencoders on a large facial expression dataset without emotion labels, yielding excellent representations. Subsequently, we train PF-ViT using a GAN framework. During training, the auxiliary task of poke face generation promotes the disentanglement between emotional and emotion-irrelevant components, guiding the FER model to holistically capture discriminative facial details. Quantitative and qualitative results demonstrate the effectiveness of our method, surpassing the state-of-the-art methods on four popular FER datasets.
- Abstract(参考訳): 表情学習と特徴のゆがみは、表情認識(FER)の分野で大きな研究関心を集めている。
感情ラベルの本来の曖昧さは、従来の教師付き表現学習法に課題をもたらす。
さらに、表情画像から感情ラベルへのマッピングを直接学習するには、きめ細かい顔の特徴を捉えるための明確な監視信号が欠けている。
本稿では,これらの課題に対処する新しいFERモデルであるポーカー・フェイス・ビジョン・トランスフォーマー(PF-ViT)を提案する。
PF-ViTは、対のイメージを必要とせず、対応するポーカーフェイスを生成することによって、静的な顔画像から外乱非依存の感情を分離し、認識することを目的としている。
顔面行動符号化システムにインスパイアされた表情は、ポーカーの顔(つまり無情な顔)に顔の筋肉の動きが組み合わさった結果であると考えられる。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは感情ラベルのない大きな表情データセット上でMasked Autoencodersとして事前訓練され、優れた表現が得られる。
その後、GANフレームワークを用いてPF-ViTを訓練する。
トレーニング中、ポークフェース生成の補助タスクは、感情的および感情的無関係なコンポーネント間の絡み合いを促進し、FERモデルに差別的な顔の詳細をホログラム的に捉えるように誘導する。
提案手法の有効性を定量的かつ定性的に示し,4つのFERデータセット上での最先端手法を超越した結果を得た。
関連論文リスト
- Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - SimFLE: Simple Facial Landmark Encoding for Self-Supervised Facial
Expression Recognition in the Wild [3.4798852684389963]
顔のランドマークの効果的な符号化を学習できる自己教師型簡易顔ランドマーク符号化法(SimFLE)を提案する。
この目的のために、新しいFaceMAEモジュールを紹介します。
いくつかのFER-Wベンチマークの実験結果から、提案したSimFLEは顔のランドマークのローカライゼーションに優れていることが証明された。
論文 参考訳(メタデータ) (2023-03-14T06:30:55Z) - Interpretable Explainability in Facial Emotion Recognition and
Gamification for Data Collection [0.0]
顔の感情認識モデルを訓練するには、大量のデータと高価なアノテーションプロセスが必要である。
我々は,人間の明示的なラベル付けを行なわずに,注釈付き顔感情データを取得するゲーミフィケーション手法を開発した。
プレイヤーの表情認知能力と表情能力は,繰り返しゲームプレイによって著しく向上した。
論文 参考訳(メタデータ) (2022-11-09T09:53:48Z) - PERI: Part Aware Emotion Recognition In The Wild [4.206175795966693]
本稿では視覚的特徴を用いた感情認識に焦点を当てる。
身体のポーズと顔のランドマークの両方から生成されたマスクを用いて、入力画像からキー領域を抽出し、部分認識空間(PAS)画像を作成する。
野生のEMOTICデータセットで公開されている結果について報告する。
論文 参考訳(メタデータ) (2022-10-18T20:01:40Z) - Learning Facial Representations from the Cycle-consistency of Face [23.23272327438177]
顔特徴の周期一貫性を自由監督信号として導入し、ラベルのない顔画像から顔の表情を学習する。
この学習は、顔の動きサイクルの制約とアイデンティティのサイクルの制約を重畳することによって実現される。
我々のアプローチは既存の手法と競合し、アンタングル表現に埋め込まれたリッチでユニークな情報を実証する。
論文 参考訳(メタデータ) (2021-08-07T11:30:35Z) - I Only Have Eyes for You: The Impact of Masks On Convolutional-Based
Facial Expression Recognition [78.07239208222599]
今回提案したFaceChannelがマスクを持つ人からの表情認識にどのように適応するかを評価します。
また、制約された社会的相互作用シナリオにおける顔の特徴の変化を学習し、組み合わせるためのFaceChannelの本質的な能力を示すために、特定の機能レベルの可視化も行います。
論文 参考訳(メタデータ) (2021-04-16T20:03:30Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。