論文の概要: POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression
Recognition
- arxiv url: http://arxiv.org/abs/2204.04083v1
- Date: Fri, 8 Apr 2022 14:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 12:18:42.466586
- Title: POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression
Recognition
- Title(参考訳): POSTER:表情認識のためのピラミッド型クロスフュージョントランスネットワーク
- Authors: Ce Zheng, Matias Mendieta, and Chen Chen
- Abstract要約: 顔の表情認識(FER)はコンピュータビジョンコミュニティへの関心が高まっている。
既存のメソッドは通常これらの問題に対処するが、全てを統一されたフレームワークで対処しない。
本稿では,これらの問題を解決することを目的とした2ストリームのピラミッド crOss-fuSion TransformER ネットワーク (POSTER) を提案する。
- 参考スコア(独自算出の注目度): 6.41295153600647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Expression Recognition (FER) has received increasing interest in the
computer vision community. As a challenging task, there are three key issues
especially prevalent in FER: inter-class similarity, intra-class discrepancy,
and scale sensitivity. Existing methods typically address some of these issues,
but do not tackle them all in a unified framework. Therefore, in this paper, we
propose a two-stream Pyramid crOss-fuSion TransformER network (POSTER) that
aims to holistically solve these issues. Specifically, we design a
transformer-based cross-fusion paradigm that enables effective collaboration of
facial landmark and direct image features to maximize proper attention to
salient facial regions. Furthermore, POSTER employs a pyramid structure to
promote scale invariance. Extensive experimental results demonstrate that our
POSTER outperforms SOTA methods on RAF-DB with 92.05%, FERPlus with 91.62%,
AffectNet (7 cls) with 67.31%, and AffectNet (8 cls) with 63.34%, respectively.
- Abstract(参考訳): 顔の表情認識(FER)はコンピュータビジョンコミュニティへの関心が高まっている。
特にFERでは、クラス間の類似性、クラス内の不一致、スケール感度の3つの重要な課題がある。
既存のメソッドは通常これらの問題に対処するが、全てを統一されたフレームワークで対処しない。
そこで本稿では,これらの問題を解決することを目的とした2ストリームのピラミッド crOss-fuSion TransformER ネットワーク (POSTER) を提案する。
具体的には,顔ランドマークと直接画像の特徴を効果的に協調し,正常な顔領域への注意を最大化するトランスフォーマーベースのクロスフュージョンパラダイムを考案する。
さらに、POSTERはスケール不変性を促進するためにピラミッド構造を採用している。
広範な実験結果から,raf-db の sota メソッドは 92.05%,ferplus は 91.62%, affectnet (7 cls) は 67.31%, affectnet (8 cls) はそれぞれ 63.34% であった。
関連論文リスト
- A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition [2.9581436761331017]
これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。
本稿では,マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提案する。
提案手法は,パラメータ数やロバスト性の観点から,最先端手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2024-03-21T11:40:51Z) - POSTER V2: A simpler and stronger facial expression recognition network [8.836565857279052]
顔の表情認識(FER)は、人間とコンピュータの相互作用のような現実世界の様々な応用において重要な役割を果たしている。
POSTER V1は、顔のランドマークと画像の特徴を効果的に組み合わせることで、FERにおける最先端(SOTA)性能を達成する。
本稿では,POSTER V1を3方向(クロスフュージョン,2ストリーム,マルチスケール)で改善するPOSTER V2を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:23:44Z) - Distract Your Attention: Multi-head Cross Attention Network for Facial
Expression Recognition [4.500212131331687]
本稿では,DAN(Distract your Attention Network)と呼ばれる新しい表情認識ネットワークを提案する。
本手法は2つの重要な観察結果に基づいており、複数のクラスが本質的に類似した顔の外観を共有しており、その違いは微妙である可能性がある。
特徴クラスタリングネットワーク(FCN)、マルチヘッドクロスアテンションネットワーク(MAN)、アテンションフュージョンネットワーク(AFN)の3つの主要コンポーネントでDANを提案する。
論文 参考訳(メタデータ) (2021-09-15T13:15:54Z) - P2T: Pyramid Pooling Transformer for Scene Understanding [62.41912463252468]
私たちはP2Tと呼ばれる下流タスク指向のトランスネットワークを構築します。
プールベースのMHSAを組み込んで、P2Tと呼ばれる下流タスク指向のトランスネットワークを構築しました。
論文 参考訳(メタデータ) (2021-06-22T18:28:52Z) - MViT: Mask Vision Transformer for Facial Expression Recognition in the
wild [77.44854719772702]
野生における表情認識(FER)はコンピュータビジョンにおいて極めて困難な課題である。
本研究ではまず,野生におけるFERのためのマスク・ビジョン・トランス (MViT) を提案する。
我々のMViTはRAF-DBの最先端手法を88.62%、FERPlusを89.22%、AffectNet-7を64.57%で上回り、61.40%でAffectNet-8と同等の結果を得る。
論文 参考訳(メタデータ) (2021-06-08T16:58:10Z) - Robust Facial Expression Recognition with Convolutional Visual
Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文 参考訳(メタデータ) (2021-03-31T07:07:56Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文 参考訳(メタデータ) (2021-03-14T17:03:53Z) - Feature Pyramid Transformer [121.50066435635118]
我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。
FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。
我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-07-18T15:16:32Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。