論文の概要: POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression
Recognition
- arxiv url: http://arxiv.org/abs/2204.04083v2
- Date: Sun, 13 Aug 2023 20:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 23:36:34.404145
- Title: POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression
Recognition
- Title(参考訳): POSTER:表情認識のためのピラミッド型クロスフュージョントランスネットワーク
- Authors: Ce Zheng, Matias Mendieta, and Chen Chen
- Abstract要約: 顔の表情認識(FER)はコンピュータビジョンにおいて重要な課題であり、人間とコンピュータのインタラクション、教育、医療、オンラインモニタリングといった分野に実践的な応用がある。
特に大きな問題は、クラス間類似性、クラス内類似性、スケール感度の3つである。
本稿では,これら3つの問題を総括的に解決することを目的とした2ストリームのピラミッド crOss-fuSion TransformER ネットワーク (POSTER) を提案する。
- 参考スコア(独自算出の注目度): 11.525573321175925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expression recognition (FER) is an important task in computer vision,
having practical applications in areas such as human-computer interaction,
education, healthcare, and online monitoring. In this challenging FER task,
there are three key issues especially prevalent: inter-class similarity,
intra-class discrepancy, and scale sensitivity. While existing works typically
address some of these issues, none have fully addressed all three challenges in
a unified framework. In this paper, we propose a two-stream Pyramid
crOss-fuSion TransformER network (POSTER), that aims to holistically solve all
three issues. Specifically, we design a transformer-based cross-fusion method
that enables effective collaboration of facial landmark features and image
features to maximize proper attention to salient facial regions. Furthermore,
POSTER employs a pyramid structure to promote scale invariance. Extensive
experimental results demonstrate that our POSTER achieves new state-of-the-art
results on RAF-DB (92.05%), FERPlus (91.62%), as well as AffectNet 7 class
(67.31%) and 8 class (63.34%). The code is available at
https://github.com/zczcwh/POSTER.
- Abstract(参考訳): 顔の表情認識(FER)はコンピュータビジョンにおいて重要な課題であり、人間とコンピュータのインタラクション、教育、医療、オンラインモニタリングといった分野に実践的な応用がある。
この挑戦的なFERタスクでは、特に大きな問題として、クラス間類似性、クラス内類似性、スケール感度の3つがある。
既存の作業は通常これらの問題に対処するが、統一フレームワークにおける3つの課題すべてに完全に対処することはない。
本稿では,3つの問題を一括で解決することを目的とした2ストリームのピラミッドcrOss-fuSion TransformERネットワーク(POSTER)を提案する。
具体的には,顔のランドマーク特徴と画像特徴を効果的に協調し,正常な顔領域への注意を最大化するトランスフォーマーベースのクロスフュージョン法を考案する。
さらに、POSTERはスケール不変性を促進するためにピラミッド構造を採用している。
広範な実験結果から,raf-db (92.05%), ferplus (91.62%), affectnet 7 クラス (67.31%), 8 クラス (63.34%) において新たな最先端結果が得られた。
コードはhttps://github.com/zczcwh/posterで入手できる。
関連論文リスト
- A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition [2.9581436761331017]
これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。
本稿では,マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提案する。
提案手法は,パラメータ数やロバスト性の観点から,最先端手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2024-03-21T11:40:51Z) - POSTER V2: A simpler and stronger facial expression recognition network [8.836565857279052]
顔の表情認識(FER)は、人間とコンピュータの相互作用のような現実世界の様々な応用において重要な役割を果たしている。
POSTER V1は、顔のランドマークと画像の特徴を効果的に組み合わせることで、FERにおける最先端(SOTA)性能を達成する。
本稿では,POSTER V1を3方向(クロスフュージョン,2ストリーム,マルチスケール)で改善するPOSTER V2を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:23:44Z) - Distract Your Attention: Multi-head Cross Attention Network for Facial
Expression Recognition [4.500212131331687]
本稿では,DAN(Distract your Attention Network)と呼ばれる新しい表情認識ネットワークを提案する。
本手法は2つの重要な観察結果に基づいており、複数のクラスが本質的に類似した顔の外観を共有しており、その違いは微妙である可能性がある。
特徴クラスタリングネットワーク(FCN)、マルチヘッドクロスアテンションネットワーク(MAN)、アテンションフュージョンネットワーク(AFN)の3つの主要コンポーネントでDANを提案する。
論文 参考訳(メタデータ) (2021-09-15T13:15:54Z) - P2T: Pyramid Pooling Transformer for Scene Understanding [62.41912463252468]
私たちはP2Tと呼ばれる下流タスク指向のトランスネットワークを構築します。
プールベースのMHSAを組み込んで、P2Tと呼ばれる下流タスク指向のトランスネットワークを構築しました。
論文 参考訳(メタデータ) (2021-06-22T18:28:52Z) - MViT: Mask Vision Transformer for Facial Expression Recognition in the
wild [77.44854719772702]
野生における表情認識(FER)はコンピュータビジョンにおいて極めて困難な課題である。
本研究ではまず,野生におけるFERのためのマスク・ビジョン・トランス (MViT) を提案する。
我々のMViTはRAF-DBの最先端手法を88.62%、FERPlusを89.22%、AffectNet-7を64.57%で上回り、61.40%でAffectNet-8と同等の結果を得る。
論文 参考訳(メタデータ) (2021-06-08T16:58:10Z) - Robust Facial Expression Recognition with Convolutional Visual
Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文 参考訳(メタデータ) (2021-03-31T07:07:56Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文 参考訳(メタデータ) (2021-03-14T17:03:53Z) - Feature Pyramid Transformer [121.50066435635118]
我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。
FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。
我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-07-18T15:16:32Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。