論文の概要: Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues
- arxiv url: http://arxiv.org/abs/2402.00281v3
- Date: Thu, 25 Apr 2024 16:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 21:08:18.263817
- Title: Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues
- Title(参考訳): 空間行動単位キューによる表情認識の誘導
- Authors: Soufiane Belharbi, Marco Pedersoli, Alessandro Lameiras Koerich, Simon Bacon, Eric Granger,
- Abstract要約: オーキューを分類器学習に明示的に組み込むための新しい学習戦略が提案されている。
分類性能を劣化させることなく階層的解釈性を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 55.97779732051921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although state-of-the-art classifiers for facial expression recognition (FER) can achieve a high level of accuracy, they lack interpretability, an important feature for end-users. Experts typically associate spatial action units (\aus) from a codebook to facial regions for the visual interpretation of expressions. In this paper, the same expert steps are followed. A new learning strategy is proposed to explicitly incorporate \au cues into classifier training, allowing to train deep interpretable models. During training, this \au codebook is used, along with the input image expression label, and facial landmarks, to construct a \au heatmap that indicates the most discriminative image regions of interest w.r.t the facial expression. This valuable spatial cue is leveraged to train a deep interpretable classifier for FER. This is achieved by constraining the spatial layer features of a classifier to be correlated with \au heatmaps. Using a composite loss, the classifier is trained to correctly classify an image while yielding interpretable visual layer-wise attention correlated with \au maps, simulating the expert decision process. Our strategy only relies on image class expression for supervision, without additional manual annotations. Our new strategy is generic, and can be applied to any deep CNN- or transformer-based classifier without requiring any architectural change or significant additional training time. Our extensive evaluation on two public benchmarks \rafdb, and \affectnet datasets shows that our proposed strategy can improve layer-wise interpretability without degrading classification performance. In addition, we explore a common type of interpretable classifiers that rely on class activation mapping (CAM) methods, and show that our approach can also improve CAM interpretability.
- Abstract(参考訳): 表情認識のための最先端の分類器(FER)は高い精度を達成できるが、エンドユーザーにとって重要な特徴である解釈性に欠ける。
専門家は通常、コードブックから表情の視覚的解釈のための顔領域への空間的行動単位(\aus)を関連付ける。
本稿では、同様の専門家の手順を踏襲する。
新しい学習戦略が提案され, \au cues を分類器訓練に明示的に組み込むことで, 深い解釈可能なモデルを訓練することができる。
トレーニング中は、入力された画像表現ラベルと顔ランドマークとともに、このauコードブックを使用して、表情が興味のある最も識別性の高い画像領域を示す \auヒートマップを構築する。
この価値ある空間キューを利用して、FERの深い解釈可能な分類器を訓練する。
これは、分類器の空間層の特徴を \au ヒートマップと相関させることによって達成される。
合成損失を用いて、分類器は、専門家決定過程をシミュレートし、 \au マップと相関した解釈可能な視覚層対応の注意を与えながら、画像を正しく分類するように訓練される。
我々の戦略は、手作業のアノテーションを伴わずに、イメージクラスの表現のみを監督に頼っている。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
2つの公開ベンチマークである \rafdb と \affectnet のデータセットを広範囲に評価した結果,提案手法は分類性能を劣化させることなく階層的解釈性を向上させることができることがわかった。
さらに,クラスアクティベーションマッピング(CAM)手法に依存する共通タイプの解釈可能な分類器について検討し,そのアプローチがCAMの解釈可能性を向上させることを示す。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Attention as Annotation: Generating Images and Pseudo-masks for Weakly
Supervised Semantic Segmentation with Diffusion [10.873354142424697]
本稿では,実際の画像や手動のアノテーションに依存しない意味的セグメンテーションのトレーニング手法を提案する。
提案手法は,テキスト・ツー・イメージ拡散モデルにより生成された画像と内部のテキスト・ツー・イメージ・クロスアテンションを併用して,疑似マスクの監督を行う。
実験により、attn2maskは、セグメント化に実際のトレーニングデータを使用しないPASCAL VOCで有望な結果を達成することを示し、また、よりクラスのシナリオであるImageNetセグメンテーションにセグメンテーションをスケールアップすることも有用である。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - Delving into Shape-aware Zero-shot Semantic Segmentation [18.51025849474123]
我々はtextbfshape-aware zero-shot semantic segmentation を提案する。
古典的スペクトル法に着想を得て,自己教師付き画素ワイド特徴を持つラプラシア行列の固有ベクトルを活用することを提案する。
提案手法は,PascalとCOCOの両方でゼロショットセマンティックセマンティックセグメンテーションのための最先端性能を新たに設定する。
論文 参考訳(メタデータ) (2023-04-17T17:59:46Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - Uncertain Label Correction via Auxiliary Action Unit Graphs for Facial
Expression Recognition [46.99756911719854]
ULC-AGと呼ばれる補助行動単位(AU)グラフを用いて,表情の不確実なラベル補正を実現する。
ULC-AGはRAF-DBとAffectNetのデータセットでそれぞれ89.31%と61.57%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-23T11:09:43Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。