Fugu-MT 論文翻訳(概要): Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition

論文の概要: Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition

arxiv url: http://arxiv.org/abs/2109.07270v1
Date: Wed, 15 Sep 2021 13:15:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-16 14:59:19.590843
Title: Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition
Title（参考訳）: 顔の表情認識のためのマルチヘッドクロス注意ネットワーク
Authors: Zhengyao Wen, Wenzhong Lin, Tao Wang, Ge Xu
Abstract要約: 本稿では,DAN(Distract your Attention Network)と呼ばれる新しい表情認識ネットワークを提案する。本手法は2つの重要な観察結果に基づいており、複数のクラスが本質的に類似した顔の外観を共有しており、その違いは微妙である可能性がある。特徴クラスタリングネットワーク(FCN)、マルチヘッドクロスアテンションネットワーク(MAN)、アテンションフュージョンネットワーク(AFN)の3つの主要コンポーネントでDANを提案する。
参考スコア（独自算出の注目度）: 4.1048424380271245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel facial expression recognition network, called Distract your Attention Network (DAN). Our method is based on two key observations. Firstly, multiple classes share inherently similar underlying facial appearance, and their differences could be subtle. Secondly, facial expressions exhibit themselves through multiple facial regions simultaneously, and the recognition requires a holistic approach by encoding high-order interactions among local features. To address these issues, we propose our DAN with three key components: Feature Clustering Network (FCN), Multi-head cross Attention Network (MAN), and Attention Fusion Network (AFN). The FCN extracts robust features by adopting a large-margin learning objective to maximize class separability. In addition, the MAN instantiates a number of attention heads to simultaneously attend to multiple facial areas and build attention maps on these regions. Further, the AFN distracts these attentions to multiple locations before fusing the attention maps to a comprehensive one. Extensive experiments on three public datasets (including AffectNet, RAF-DB, and SFEW 2.0) verified that the proposed method consistently achieves state-of-the-art facial expression recognition performance. Code will be made available at https://github.com/yaoing/DAN.
Abstract（参考訳）: 本稿では,DAN(Distract your Attention Network)と呼ばれる新しい表情認識ネットワークを提案する。本手法は2つの重要な観測結果に基づく。まず、複数のクラスが本質的に類似した顔の外観を共有しており、その違いは微妙である。第二に、表情は複数の顔領域を通して同時に現れ、認識には局所的な特徴間の高次相互作用を符号化する全体論的アプローチが必要である。これらの問題に対処するため,我々は機能クラスタリングネットワーク(fcn),マルチヘッドクロスアテンションネットワーク(man),アテンションフュージョンネットワーク(afn)という3つの重要なコンポーネントを用いたdanを提案する。 FCNは、クラス分離性を最大化するために、大きなマージン学習目標を採用することで、堅牢な特徴を抽出する。さらに、男性は複数の注意ヘッドをインスタンス化し、複数の顔領域に同時に出席し、これらの領域に注意マップを構築する。さらに、AFNはこれらの注意を複数の場所に分散させ、注意マップを包括的なものに融合させる。 AffectNet、RAF-DB、SFEW 2.0を含む3つの公開データセットの大規模な実験により、提案手法が常に最先端の顔認識性能を実現することを確認した。コードはhttps://github.com/yaoing/DAN.comで公開される。

関連論文リスト

MGRR-Net: Multi-level Graph Relational Reasoning Network for Facial Action Units Detection [16.261362598190807]
FACS(Facial Action Coding System)は、顔画像中のアクションユニット(AU)を符号化する。我々は、AU特徴の符号化は、地域的特徴とグローバルな特徴の間のリッチな文脈情報を捉えないかもしれないと論じる。顔AU検出のためのマルチレベルグラフ推論ネットワーク(MGRR-Net)を提案する。
論文参考訳（メタデータ） (2022-04-04T09:47:22Z)
Your "Attention" Deserves Attention: A Self-Diversified Multi-Channel Attention for Facial Action Analysis [12.544285462327839]
本稿では,ニューラルアテンションマップの表現力と集中力を高めるためのコンパクトモデルを提案する。提案手法は,AU検出のための2つのベンチマークデータベース (BP4D, DISFA) と顔認識のための4つのデータベース (CK+, MMI, BU-3DFE, BP4D+) で評価した。最先端の手法に比べて優れた性能を発揮する。
論文参考訳（メタデータ） (2022-03-23T17:29:51Z)
Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。 VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-02-20T06:35:18Z)
Variational Structured Attention Networks for Deep Visual Representation Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文参考訳（メタデータ） (2021-03-05T07:37:24Z)
Multi-attentional Deepfake Detection [79.80308897734491]
ディープフェイクによる顔の偽造はインターネットに広まり、深刻な社会的懸念を引き起こしている。新たなマルチアテンテーショナルディープフェイク検出ネットワークを提案する。具体的には,1)ネットワークを異なる局所的部分へ配置するための複数の空間的注意ヘッド,2)浅い特徴の微妙なアーティファクトをズームするテクスチャ的特徴拡張ブロック,3)低レベルなテクスチャ特徴と高レベルなセマンティクス特徴をアグリゲートする,の3つの構成要素からなる。
論文参考訳（メタデータ） (2021-03-03T13:56:14Z)
Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文参考訳（メタデータ） (2021-01-17T10:14:28Z)
Robust Facial Landmark Detection by Cross-order Cross-semantic Deep Network [58.843211405385205]
顔のランドマーク検出を堅牢にするためのセマンティックな特徴学習を促進するために,クロスオーダー・クロスセマンティック・ディープ・ネットワーク(CCDN)を提案する。具体的には、より識別的な表現学習のためのクロスオーダーチャネル相関を導入するために、クロスオーダー2列マルチ励起(CTM)モジュールを提案する。新しいクロス・オーダー・クロス・セマンティック・レギュレータ (COCS) は、顔のランドマーク検出のために異なるアクティベーションからクロス・オーダーのクロス・セマンティック特徴を学習するためにネットワークを駆動するように設計されている。
論文参考訳（メタデータ） (2020-11-16T08:19:26Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)
Deep Attention Aware Feature Learning for Person Re-Identification [22.107332426681072]
本稿では,人物のReIDネットワークに注意学習を付加目的として組み込むことを提案する。我々は2つの典型的なネットワーク(TriNetとBag of Tricks)でその性能をテストし、5つの広く使われているデータセットで大幅な性能改善を観測した。
論文参考訳（メタデータ） (2020-03-01T16:27:14Z)
Deep Multi-task Multi-label CNN for Effective Facial Attribute Classification [53.58763562421771]
DMM-CNN(ディープ・マルチタスク・マルチラベル・CNN)による効果的な顔属性分類(FAC)を提案する。具体的には、DMM-CNNは、2つの密接に関連するタスク(顔のランドマーク検出とFAC)を共同で最適化し、マルチタスク学習を活用することにより、FACの性能を向上させる。 2つの異なるネットワークアーキテクチャは2つの属性のグループの特徴を抽出するために設計され、トレーニング中に各顔属性に損失重みを自動的に割り当てる新しい動的重み付け方式が提案されている。
論文参考訳（メタデータ） (2020-02-10T12:34:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。