論文の概要: Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2410.01848v1
- Date: Tue, 1 Oct 2024 10:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 14:34:44.426552
- Title: Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition
- Title(参考訳): 深部表情認識のための空間行動単位キュー
- Authors: Soufiane Belharbi, Marco Pedersoli, Alessandro Lameiras Koerich, Simon Bacon, Eric Granger,
- Abstract要約: 表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
- 参考スコア(独自算出の注目度): 55.97779732051921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although state-of-the-art classifiers for facial expression recognition (FER) can achieve a high level of accuracy, they lack interpretability, an important feature for end-users. Experts typically associate spatial action units (AUs) from a codebook to facial regions for the visual interpretation of expressions. In this paper, the same expert steps are followed. A new learning strategy is proposed to explicitly incorporate AU cues into classifier training, allowing to train deep interpretable models. During training, this AU codebook is used, along with the input image expression label, and facial landmarks, to construct a AU heatmap that indicates the most discriminative image regions of interest w.r.t the facial expression. This valuable spatial cue is leveraged to train a deep interpretable classifier for FER. This is achieved by constraining the spatial layer features of a classifier to be correlated with AU heatmaps. Using a composite loss, the classifier is trained to correctly classify an image while yielding interpretable visual layer-wise attention correlated with AU maps, simulating the expert decision process. Our strategy only relies on image class expression for supervision, without additional manual annotations. Our new strategy is generic, and can be applied to any deep CNN- or transformer-based classifier without requiring any architectural change or significant additional training time. Our extensive evaluation on two public benchmarks RAF-DB, and AffectNet datasets shows that our proposed strategy can improve layer-wise interpretability without degrading classification performance. In addition, we explore a common type of interpretable classifiers that rely on class activation mapping (CAM) methods, and show that our approach can also improve CAM interpretability.
- Abstract(参考訳): 表情認識のための最先端の分類器(FER)は高い精度を達成できるが、エンドユーザーにとって重要な特徴である解釈性に欠ける。
専門家は通常、コードブックから表情の視覚的解釈のための顔領域への空間行動単位(AU)を関連付ける。
本稿では、同様の専門家の手順を踏襲する。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
トレーニング中、このAUコードブックは、入力画像表現ラベルおよび顔ランドマークと共に使用され、顔表現に係わる最も識別性の高い画像領域を示すAUヒートマップを構築する。
この価値ある空間キューを利用して、FERの深い解釈可能な分類器を訓練する。
これは、AUヒートマップと相関する分類器の空間層特性を制約することで達成される。
合成損失を用いて、この分類器は、AUマップと相関した解釈可能な視覚層対応の注意を与えながら、画像の正しい分類を訓練し、専門家決定過程をシミュレートする。
我々の戦略は、手作業のアノテーションを伴わずに、イメージクラスの表現のみを監督に頼っている。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
RAF-DBとAffectNetデータセットの2つの公開ベンチマークに対する広範な評価は、提案手法が分類性能を劣化させることなく階層的解釈性を向上させることができることを示している。
さらに,クラスアクティベーションマッピング(CAM)手法に依存する共通タイプの解釈可能な分類器について検討し,そのアプローチがCAMの解釈可能性を向上させることを示す。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues [55.97779732051921]
オーキューを分類器学習に明示的に組み込むための新しい学習戦略が提案されている。
分類性能を劣化させることなく階層的解釈性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-01T02:13:49Z) - LICO: Explainable Models with Language-Image Consistency [39.869639626266554]
本稿では,Language-Image Consistency model for explainable image classification, licOについて述べる。
まず、画像特徴量と言語特徴量との距離を最小化して、粗大な大域的多様体構造アライメントを確立する。
次に,局所特徴写像をクラス固有のプロンプトに割り当てるために最適な輸送(OT)理論を適用することにより,細粒度なサリエンシマップを実現する。
論文 参考訳(メタデータ) (2023-10-15T12:44:33Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - Uncertain Label Correction via Auxiliary Action Unit Graphs for Facial
Expression Recognition [46.99756911719854]
ULC-AGと呼ばれる補助行動単位(AU)グラフを用いて,表情の不確実なラベル補正を実現する。
ULC-AGはRAF-DBとAffectNetのデータセットでそれぞれ89.31%と61.57%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-23T11:09:43Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - AU-Expression Knowledge Constrained Representation Learning for Facial
Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。
課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-12-29T03:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。