論文の概要: Landmark Guidance Independent Spatio-channel Attention and Complementary
Context Information based Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2007.10298v2
- Date: Sat, 25 Jul 2020 14:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 14:06:18.016844
- Title: Landmark Guidance Independent Spatio-channel Attention and Complementary
Context Information based Facial Expression Recognition
- Title(参考訳): ランドマークガイダンス 独立時空間チャネル注意と相補的文脈情報に基づく表情認識
- Authors: Darshan Gera and S Balasubramanian
- Abstract要約: 現代の顔表情認識(FER)アーキテクチャは、注意を定義するためにランドマーク検出器のような外部ソースに依存している。
本研究では,空間的位置当たりのチャネルごとの局所的および大域的注目度を求める FER のエンドツーエンドアーキテクチャを提案する。
提案したモデルのロバスト性と優れた性能は,組込みデータセットと組込みデータセットの両方で実証される。
- 参考スコア(独自算出の注目度): 5.076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent trend to recognize facial expressions in the real-world scenario is
to deploy attention based convolutional neural networks (CNNs) locally to
signify the importance of facial regions and, combine it with global facial
features and/or other complementary context information for performance gain.
However, in the presence of occlusions and pose variations, different channels
respond differently, and further that the response intensity of a channel
differ across spatial locations. Also, modern facial expression
recognition(FER) architectures rely on external sources like landmark detectors
for defining attention. Failure of landmark detector will have a cascading
effect on FER. Additionally, there is no emphasis laid on the relevance of
features that are input to compute complementary context information.
Leveraging on the aforementioned observations, an end-to-end architecture for
FER is proposed in this work that obtains both local and global attention per
channel per spatial location through a novel spatio-channel attention net
(SCAN), without seeking any information from the landmark detectors. SCAN is
complemented by a complementary context information (CCI) branch. Further,
using efficient channel attention (ECA), the relevance of features input to CCI
is also attended to. The representation learnt by the proposed architecture is
robust to occlusions and pose variations. Robustness and superior performance
of the proposed model is demonstrated on both in-lab and in-the-wild datasets
(AffectNet, FERPlus, RAF-DB, FED-RO, SFEW, CK+, Oulu-CASIA and JAFFE) along
with a couple of constructed face mask datasets resembling masked faces in
COVID-19 scenario. Codes are publicly available at
https://github.com/1980x/SCAN-CCI-FER
- Abstract(参考訳): 現実のシナリオで表情を認識する最近のトレンドは、注意に基づく畳み込みニューラルネットワーク(cnns)をローカルに展開して、顔領域の重要性を示し、パフォーマンス向上のためにグローバルな顔特徴や/またはその他の補完的なコンテキスト情報と組み合わせることである。
しかし、咬合やポーズの変化が存在する場合、異なるチャンネルは異なる応答を示し、さらに、チャンネルの応答強度は空間的な場所によって異なる。
また、現代の表情認識(fer)アーキテクチャは注意を引くためにランドマーク検出器のような外部ソースに依存する。
ランドマーク検出器の故障はFERにカスケード効果をもたらす。
さらに、補完的な文脈情報を計算するために入力される特徴の関連性に重点を置いていない。
本研究では, 上記の観測を生かして, ランドマーク検出器から情報を求めることなく, 空間的位置当たりのチャネル当たりの局所的および大域的注意を新しいスペースチャネルアテンションネット (SCAN) を通じて獲得する FER のエンドツーエンドアーキテクチャを提案する。
SCANは補完的コンテキスト情報(CCI)ブランチによって補完される。
さらに、効率的なチャネルアテンション(ECA)を用いて、CCIに入力される特徴の関連性も考慮する。
提案するアーキテクチャによって学習される表現は、オクルージョンやポーズの変化に対して頑健である。
提案モデルのロバスト性と優れた性能は,in-labおよびin-the-wildデータセット(affectnet, ferplus, raf-db, fed-ro, sfew, ck+, oulu-casia, jaffe)と,covid-19シナリオにおけるマスクドフェイスに似た2つの顔マスクデータセットで実証されている。
コードはhttps://github.com/1980x/SCAN-CCI-FERで公開されている。
関連論文リスト
- Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial
Expression Recognition [19.5702895176141]
野生の表情認識(DFER)の従来の方法は、主にCNN(Convolutional Neural Networks)に基づいており、ローカル操作はビデオの長距離依存性を無視している。
DFERのトランスフォーマーを用いた性能向上手法を提案するが,高いFLOPと計算コストが生じる。
DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。
論文 参考訳(メタデータ) (2023-05-05T07:53:13Z) - PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person
Search [56.02761592710612]
モジュール・パーソン・サーチのための新しいアテンション・アウェア・リレーション・ミキサー(ARM)を提案する。
私たちのARMモジュールはネイティブで、きめ細かい監督やトポロジカルな仮定に依存していません。
我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-07T10:04:12Z) - Local-Aware Global Attention Network for Person Re-Identification Based on Body and Hand Images [0.0]
本稿では,身体画像と手動画像の両面から,人物Re-Idに対するエンドツーエンドの識別的深層特徴学習のための複合的アプローチを提案する。
提案手法は既存の最先端手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-09-11T09:43:42Z) - MGRR-Net: Multi-level Graph Relational Reasoning Network for Facial Action Units Detection [16.261362598190807]
FACS(Facial Action Coding System)は、顔画像中のアクションユニット(AU)を符号化する。
我々は、AU特徴の符号化は、地域的特徴とグローバルな特徴の間のリッチな文脈情報を捉えないかもしれないと論じる。
顔AU検出のためのマルチレベルグラフ推論ネットワーク(MGRR-Net)を提案する。
論文 参考訳(メタデータ) (2022-04-04T09:47:22Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Affect Expression Behaviour Analysis in the Wild using Spatio-Channel
Attention and Complementary Context Information [5.076419064097734]
顔の表情認識は、信頼性の高い人間とコンピュータの対話システムを構築する上で不可欠である。
現在のFERシステムは、様々な自然条件や制御されていない条件下ではうまく機能しない。
本稿では,ABAW(Affective Behaviour Analysis in-wild)2020 コンペティションの表現認識トラックに,注目に基づく枠組みを提示する。
論文 参考訳(メタデータ) (2020-09-29T12:26:15Z) - Hierarchical Context Embedding for Region-based Object Detection [40.9463003508027]
階層型コンテキスト埋め込み(HCE)フレームワークは、プラグイン・アンド・プレイコンポーネントとして適用することができる。
文脈依存型オブジェクトカテゴリの認識を促進するために,画像レベルのカテゴリ埋め込みモジュールを提案する。
画像全体と関心領域の両方に階層的に埋め込まれたコンテキスト情報を活用することで、新しいRoI機能を生成する。
論文 参考訳(メタデータ) (2020-08-04T05:33:22Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。