Fugu-MT 論文翻訳(概要): POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression Recognition

論文の概要: POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression Recognition

arxiv url: http://arxiv.org/abs/2204.04083v2
Date: Sun, 13 Aug 2023 20:49:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 23:36:34.404145
Title: POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression Recognition
Title（参考訳）: POSTER:表情認識のためのピラミッド型クロスフュージョントランスネットワーク
Authors: Ce Zheng, Matias Mendieta, and Chen Chen
Abstract要約: 顔の表情認識(FER)はコンピュータビジョンにおいて重要な課題であり、人間とコンピュータのインタラクション、教育、医療、オンラインモニタリングといった分野に実践的な応用がある。特に大きな問題は、クラス間類似性、クラス内類似性、スケール感度の3つである。本稿では,これら3つの問題を総括的に解決することを目的とした2ストリームのピラミッド crOss-fuSion TransformER ネットワーク (POSTER) を提案する。
参考スコア（独自算出の注目度）: 11.525573321175925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Facial expression recognition (FER) is an important task in computer vision, having practical applications in areas such as human-computer interaction, education, healthcare, and online monitoring. In this challenging FER task, there are three key issues especially prevalent: inter-class similarity, intra-class discrepancy, and scale sensitivity. While existing works typically address some of these issues, none have fully addressed all three challenges in a unified framework. In this paper, we propose a two-stream Pyramid crOss-fuSion TransformER network (POSTER), that aims to holistically solve all three issues. Specifically, we design a transformer-based cross-fusion method that enables effective collaboration of facial landmark features and image features to maximize proper attention to salient facial regions. Furthermore, POSTER employs a pyramid structure to promote scale invariance. Extensive experimental results demonstrate that our POSTER achieves new state-of-the-art results on RAF-DB (92.05%), FERPlus (91.62%), as well as AffectNet 7 class (67.31%) and 8 class (63.34%). The code is available at https://github.com/zczcwh/POSTER.
Abstract（参考訳）: 顔の表情認識(FER)はコンピュータビジョンにおいて重要な課題であり、人間とコンピュータのインタラクション、教育、医療、オンラインモニタリングといった分野に実践的な応用がある。この挑戦的なFERタスクでは、特に大きな問題として、クラス間類似性、クラス内類似性、スケール感度の3つがある。既存の作業は通常これらの問題に対処するが、統一フレームワークにおける3つの課題すべてに完全に対処することはない。本稿では,3つの問題を一括で解決することを目的とした2ストリームのピラミッドcrOss-fuSion TransformERネットワーク(POSTER)を提案する。具体的には,顔のランドマーク特徴と画像特徴を効果的に協調し,正常な顔領域への注意を最大化するトランスフォーマーベースのクロスフュージョン法を考案する。さらに、POSTERはスケール不変性を促進するためにピラミッド構造を採用している。広範な実験結果から,raf-db (92.05%), ferplus (91.62%), affectnet 7 クラス (67.31%), 8 クラス (63.34%) において新たな最先端結果が得られた。コードはhttps://github.com/zczcwh/posterで入手できる。

関連論文リスト

A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition [2.9581436761331017]
これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。本稿では,マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提案する。提案手法は,パラメータ数やロバスト性の観点から,最先端手法に匹敵する結果を得た。
論文参考訳（メタデータ） (2024-03-21T11:40:51Z)
TransFace++: Rethinking the Face Recognition Paradigm with a Focus on Accuracy, Efficiency, and Security [56.24794071698785]
顔認識(FR)技術は、ディープラーニングの出現に大きく貢献している。ほとんどの既存のFRモデルは、畳み込みニューラルネットワーク(CNN)上に構築されており、RGBの顔画像をモデルの入力として取り込んでいる。本稿では,2つの新しいFRフレームワークであるTransFaceとTransFace++を提案する。
論文参考訳（メタデータ） (2023-08-20T02:02:16Z)
POSTER V2: A simpler and stronger facial expression recognition network [8.836565857279052]
顔の表情認識(FER)は、人間とコンピュータの相互作用のような現実世界の様々な応用において重要な役割を果たしている。 POSTER V1は、顔のランドマークと画像の特徴を効果的に組み合わせることで、FERにおける最先端(SOTA)性能を達成する。本稿では,POSTER V1を3方向(クロスフュージョン,2ストリーム,マルチスケール)で改善するPOSTER V2を提案する。
論文参考訳（メタデータ） (2023-01-28T10:23:44Z)
Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition [4.500212131331687]
本稿では,DAN(Distract your Attention Network)と呼ばれる新しい表情認識ネットワークを提案する。本手法は2つの重要な観察結果に基づいており、複数のクラスが本質的に類似した顔の外観を共有しており、その違いは微妙である可能性がある。特徴クラスタリングネットワーク(FCN)、マルチヘッドクロスアテンションネットワーク(MAN)、アテンションフュージョンネットワーク(AFN)の3つの主要コンポーネントでDANを提案する。
論文参考訳（メタデータ） (2021-09-15T13:15:54Z)
P2T: Pyramid Pooling Transformer for Scene Understanding [62.41912463252468]
私たちはP2Tと呼ばれる下流タスク指向のトランスネットワークを構築します。プールベースのMHSAを組み込んで、P2Tと呼ばれる下流タスク指向のトランスネットワークを構築しました。
論文参考訳（メタデータ） (2021-06-22T18:28:52Z)
MViT: Mask Vision Transformer for Facial Expression Recognition in the wild [77.44854719772702]
野生における表情認識(FER)はコンピュータビジョンにおいて極めて困難な課題である。本研究ではまず,野生におけるFERのためのマスク・ビジョン・トランス (MViT) を提案する。我々のMViTはRAF-DBの最先端手法を88.62%、FERPlusを89.22%、AffectNet-7を64.57%で上回り、61.40%でAffectNet-8と同等の結果を得る。
論文参考訳（メタデータ） (2021-06-08T16:58:10Z)
Robust Facial Expression Recognition with Convolutional Visual Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文参考訳（メタデータ） (2021-03-31T07:07:56Z)
Hierarchical Deep CNN Feature Set-Based Representation Learning for Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文参考訳（メタデータ） (2021-03-25T14:03:42Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)
TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文参考訳（メタデータ） (2021-03-14T17:03:53Z)
CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-03-04T13:34:22Z)
Feature Pyramid Transformer [121.50066435635118]
我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。 FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
論文参考訳（メタデータ） (2020-07-18T15:16:32Z)
DotFAN: A Domain-transferred Face Augmentation Network for Pose and Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。 DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文参考訳（メタデータ） (2020-02-23T08:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。