論文の概要: Guided Interpretable Facial Expression Recognition via Spatial Action
Unit Cues
- arxiv url: http://arxiv.org/abs/2402.00281v2
- Date: Fri, 2 Feb 2024 02:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 11:49:17.659757
- Title: Guided Interpretable Facial Expression Recognition via Spatial Action
Unit Cues
- Title(参考訳): 空間行動単位cuesによる表情認識の誘導
- Authors: Soufiane Belharbi, Marco Pedersoli, Alessandro Lameiras Koerich, Simon
Bacon, Eric Granger
- Abstract要約: 本研究では,空間行動単位(aus)を分類器のトレーニングに明示的に組み込んで,深い解釈可能なモデルを構築するための学習戦略を提案する。
提案手法は,分類性能を劣化させることなく,階層的解釈性を向上させることができる。
- 参考スコア(独自算出の注目度): 59.3149596834771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While state-of-the-art facial expression recognition (FER) classifiers
achieve a high level of accuracy, they lack interpretability, an important
aspect for end-users. To recognize basic facial expressions, experts resort to
a codebook associating a set of spatial action units to a facial expression. In
this paper, we follow the same expert footsteps, and propose a learning
strategy that allows us to explicitly incorporate spatial action units (aus)
cues into the classifier's training to build a deep interpretable model. In
particular, using this aus codebook, input image expression label, and facial
landmarks, a single action units heatmap is built to indicate the most
discriminative regions of interest in the image w.r.t the facial expression. We
leverage this valuable spatial cue to train a deep interpretable classifier for
FER. This is achieved by constraining the spatial layer features of a
classifier to be correlated with \aus map. Using a composite loss, the
classifier is trained to correctly classify an image while yielding
interpretable visual layer-wise attention correlated with aus maps, simulating
the experts' decision process. This is achieved using only the image class
expression as supervision and without any extra manual annotations. Moreover,
our method is generic. It can be applied to any CNN- or transformer-based deep
classifier without the need for architectural change or adding significant
training time. Our extensive evaluation on two public benchmarks RAFDB, and
AFFECTNET datasets shows that our proposed strategy can improve layer-wise
interpretability without degrading classification performance. In addition, we
explore a common type of interpretable classifiers that rely on
Class-Activation Mapping methods (CAMs), and we show that our training
technique improves the CAM interpretability.
- Abstract(参考訳): 最先端の表情認識(FER)分類器は高い精度を達成するが、エンドユーザーにとって重要な側面である解釈性は欠如している。
基本的表情を認識するために、専門家は一連の空間行動単位を表情に関連付けるコードブックを利用する。
本稿では,同じ専門家の足跡を踏襲し,空間行動単位(aus)を分類器の訓練に明示的に組み込んで深い解釈可能なモデルを構築するための学習戦略を提案する。
特に、このausコードブック、入力画像表現ラベル、および顔ランドマークを用いて、単一のアクションユニットヒートマップを構築し、顔表情画像w.r.tに対する最も識別的な領域を示す。
我々はこの価値ある空間キューを利用して、FERの深い解釈可能な分類器を訓練する。
これは、分類器の空間層の特徴を \aus マップと相関させることによって達成される。
複合損失を用いて、分類器は、オースマップに関連付けられた解釈可能な視覚層毎の注意を与え、専門家の決定過程をシミュレートしながら、画像を正しく分類するように訓練される。
これは、イメージクラス式のみを監督として、追加のマニュアルアノテーションなしで実現できる。
さらに、このメソッドはジェネリックです。
どんなCNNやトランスフォーマーベースのディープ分類器にも、アーキテクチャの変更やトレーニング時間の追加なしに適用することができる。
RAFDB と AFFECTNET データセットの2つの公開ベンチマークに対する広範な評価は、提案手法が分類性能を劣化させることなく階層的解釈性を向上させることができることを示している。
さらに,クラスアクティベーションマッピング手法(CAM)に依存した共通タイプの解釈可能な分類器について検討し,学習手法がCAMの解釈可能性を向上させることを示す。
関連論文リスト
- Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。
シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。
ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文 参考訳(メタデータ) (2024-10-25T06:59:11Z) - Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - Linking in Style: Understanding learned features in deep learning models [0.0]
畳み込みニューラルネットワーク(CNN)は抽象的な特徴を学び、オブジェクト分類を行う。
本稿では,CNNにおける学習特徴を可視化し,体系的に解析する自動手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T12:28:48Z) - MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - LICO: Explainable Models with Language-Image Consistency [39.869639626266554]
本稿では,Language-Image Consistency model for explainable image classification, licOについて述べる。
まず、画像特徴量と言語特徴量との距離を最小化して、粗大な大域的多様体構造アライメントを確立する。
次に,局所特徴写像をクラス固有のプロンプトに割り当てるために最適な輸送(OT)理論を適用することにより,細粒度なサリエンシマップを実現する。
論文 参考訳(メタデータ) (2023-10-15T12:44:33Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。