論文の概要: Generalizable Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2408.10614v1
- Date: Tue, 20 Aug 2024 07:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:44:20.013381
- Title: Generalizable Facial Expression Recognition
- Title(参考訳): 一般化可能な表情認識
- Authors: Yuhang Zhang, Xiuqi Zheng, Chenyi Liang, Jiani Hu, Weihong Deng,
- Abstract要約: SOTA顔表情認識(FER)メソッドは、列車セットとドメインギャップのあるテストセットで失敗する。
最近の領域適応FER法は、ferモデルを微調整するために、ターゲットドメインのラベル付きまたは未ラベルのサンプルを取得する必要がある。
本稿では,1つの列車セットのみを用いて,異なる未確認テストセット上でのFER法のゼロショット一般化能力を改善することを目的とする。
- 参考スコア(独自算出の注目度): 41.639746139849564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SOTA facial expression recognition (FER) methods fail on test sets that have domain gaps with the train set. Recent domain adaptation FER methods need to acquire labeled or unlabeled samples of target domains to fine-tune the FER model, which might be infeasible in real-world deployment. In this paper, we aim to improve the zero-shot generalization ability of FER methods on different unseen test sets using only one train set. Inspired by how humans first detect faces and then select expression features, we propose a novel FER pipeline to extract expression-related features from any given face images. Our method is based on the generalizable face features extracted by large models like CLIP. However, it is non-trivial to adapt the general features of CLIP for specific tasks like FER. To preserve the generalization ability of CLIP and the high precision of the FER model, we design a novel approach that learns sigmoid masks based on the fixed CLIP face features to extract expression features. To further improve the generalization ability on unseen test sets, we separate the channels of the learned masked features according to the expression classes to directly generate logits and avoid using the FC layer to reduce overfitting. We also introduce a channel-diverse loss to make the learned masks separated. Extensive experiments on five different FER datasets verify that our method outperforms SOTA FER methods by large margins. Code is available in https://github.com/zyh-uaiaaaa/Generalizable-FER.
- Abstract(参考訳): SOTA顔表情認識(FER)メソッドは、列車セットとドメインギャップを持つテストセットで失敗する。
近年の領域適応 FER 法では,対象ドメインのラベル付きあるいはラベルなしのサンプルを取得して FER モデルを微調整する必要がある。
本稿では,1つの列車セットのみを用いて,異なる未確認テストセット上でのFER法のゼロショット一般化能力を改善することを目的とする。
ヒトがまず顔を検出し、次に表現特徴を選択する方法に着想を得て、任意の顔画像から表現関連特徴を抽出する新しいFERパイプラインを提案する。
提案手法は,CLIPのような大規模モデルによって抽出された一般化可能な顔特徴に基づいている。
しかし、FERのような特定のタスクにCLIPの一般的な機能を適用するのは簡単ではない。
CLIPの一般化能力とFERモデルの高精度性を維持するため,CLIPの顔特徴に基づいてSigmoid masksを学習し,表現特徴を抽出する手法を考案した。
未確認テストセットの一般化能力をさらに向上するため,学習したマスキング特徴のチャネルを表現クラスに従って分離し,ロジットを直接生成し,FC層によるオーバーフィッティングの低減を回避する。
また,学習マスクを分離するチャネル幅の損失も導入する。
5つの異なるFERデータセットに対する大規模な実験により、我々の手法がSOTA FER法よりも大きなマージンで優れていることが確認された。
コードはhttps://github.com/zyh-uaiaaaa/Generalizable-FERで入手できる。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Stacking Brick by Brick: Aligned Feature Isolation for Incremental Face Forgery Detection [18.46382766430443]
鼻訓練IFFDモデルは、新しい偽造物が統合されると破滅的な忘れがちである。
本稿では、SURデータを利用して分布を分離・調整するLatent-space Incremental Detector(LID)を提案する。
評価のために、IFFDに適したより高度で包括的なベンチマークを構築した。
論文 参考訳(メタデータ) (2024-11-18T09:18:36Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for
Occluded Facial Expression Recognition [0.0]
提案手法は, 顔の隠蔽部分を, 隠蔽されていないかのように検出し, 認識し, FER精度を向上する。
まず、視覚変換器(ViT)ベースのオクルージョンパッチ検出器は、隠蔽されたパッチから潜在ベクトルのみを訓練することで、隠蔽された位置をマスクする。
第2に、ハイブリッド再構成ネットワークは、ViTと畳み込みニューラルネットワーク(CNN)を用いて、完全な画像としてマスキング位置を生成する。
最後に、式関連潜時ベクトル抽出器は、CNNに基づくクラスアクティベーションマップを適用して、すべての潜時ベクトルから式関連情報を検索し、使用する。
論文 参考訳(メタデータ) (2023-07-21T07:56:32Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Loss Function Entropy Regularization for Diverse Decision Boundaries [0.0]
損失関数エントロピー正規化(Los Function Entropy Regularization, LFER)は、事前学習および対照的学習目的関数に付加される正規化用語である。
LFERは最先端技術に匹敵する精度を持つアンサンブルを生成できるが、決定境界は様々であることを示す。
論文 参考訳(メタデータ) (2022-04-30T10:16:41Z) - Face Presentation Attack Detection using Taskonomy Feature [26.343512092423985]
顔認識システム(FRS)の安全性を確保するため、提示攻撃検出(PAD)手法が重要である
既存のPAD法は、限られたトレーニングセットに大きく依存しており、未知のPAによく当てはまらない。
我々は、他の顔関連タスクからタスクノミー(タスク分類)を適用して、顔PADを解決することを提案する。
論文 参考訳(メタデータ) (2021-11-22T08:35:26Z) - BioMetricNet: deep unconstrained face verification through learning of
metrics regularized onto Gaussian distributions [25.00475462213752]
深層非拘束顔認証のための新しいフレームワークであるBioMetricNetを提案する。
提案手法では、顔の特徴について具体的な指標を課していない。
マッチングと非マッチングのペアを、明確に分離された、よく定義されたターゲット分布にマッピングする潜在表現を学習することで、決定空間を形成する。
論文 参考訳(メタデータ) (2020-08-13T17:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。