論文の概要: Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification
- arxiv url: http://arxiv.org/abs/2404.14606v1
- Date: Mon, 22 Apr 2024 22:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:50:59.375067
- Title: Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification
- Title(参考訳): 顔表情とマスク装着分類のためのクロスタスクマルチブランチ視覚変換器
- Authors: Armando Zhu, Keqin Li, Tong Wu, Peng Zhao, Wenjing Zhou, Bo Hong,
- Abstract要約: 顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。
本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。
提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
- 参考スコア(独自算出の注目度): 13.965841383756192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With wearing masks becoming a new cultural norm, facial expression recognition (FER) while taking masks into account has become a significant challenge. In this paper, we propose a unified multi-branch vision transformer for facial expression recognition and mask wearing classification tasks. Our approach extracts shared features for both tasks using a dual-branch architecture that obtains multi-scale feature representations. Furthermore, we propose a cross-task fusion phase that processes tokens for each task with separate branches, while exchanging information using a cross attention module. Our proposed framework reduces the overall complexity compared with using separate networks for both tasks by the simple yet effective cross-task fusion phase. Extensive experiments demonstrate that our proposed model performs better than or on par with different state-of-the-art methods on both facial expression recognition and facial mask wearing classification task.
- Abstract(参考訳): マスクが新しい文化規範となるにつれ、マスクを考慮した表情認識(FER)が大きな課題となっている。
本稿では,顔表情認識のための統合型マルチブランチ・ビジョン・トランスフォーマと,分類タスクを装着したマスクを提案する。
提案手法は,マルチスケールな特徴表現を得るデュアルブランチアーキテクチャを用いて,両タスクの共通特徴を抽出する。
さらに、クロスアテンションモジュールを用いて情報を交換しながら、各タスクのトークンを別々のブランチで処理するクロスタスク融合フェーズを提案する。
提案するフレームワークは, 単純かつ効果的なクロスタスク融合フェーズにより, 両方のタスクに個別のネットワークを使用する場合と比較して, 全体的な複雑性を低減させる。
大規模な実験により,提案手法は顔の表情認識と顔のマスマスキングの両面において,従来手法と同等以上の性能を示した。
関連論文リスト
- FaceXFormer: A Unified Transformer for Facial Analysis [59.94066615853198]
FaceXformerは、さまざまな顔分析タスクのためのエンドツーエンドの統一トランスフォーマーモデルである。
本モデルでは,8つのタスクにまたがる頑健さと一般化性を実証し,画像の「夢中」を効果的に処理する。
論文 参考訳(メタデータ) (2024-03-19T17:58:04Z) - A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask
Inpainting [3.0978367490767624]
この研究は安定拡散の上に構築され、汎視的セグメンテーションに対する潜時拡散アプローチを提案する。
トレーニングプロセスは,(1)部分分割マスクを潜時空間に投影する浅層オートエンコーダの訓練,(2)潜時空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。
生成モデルを使用することで、インタラクティブなセグメンテーションに応用できるマスクの完成や塗装の探索が解き放たれる。
論文 参考訳(メタデータ) (2024-01-18T18:59:19Z) - Seeing through the Mask: Multi-task Generative Mask Decoupling Face
Recognition [47.248075664420874]
現在の一般的な顔認識システムは、隠蔽シーンに遭遇する際の重大な性能劣化に悩まされている。
本稿では,これら2つのタスクを協調的に扱うために,マルチタスクのgEnerative mask dEcoupling Face Recognition (MEER) ネットワークを提案する。
まず,マスクと識別情報を分離する新しいマスクデカップリングモジュールを提案する。
論文 参考訳(メタデータ) (2023-11-20T03:23:03Z) - Mask2Anomaly: Mask Transformer for Universal Open-set Segmentation [29.43462426812185]
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
マスクをベースとしたMask2Anomalyは,マスク分類アーキテクチャの統合の可能性を示した。
総合的質的・質的評価により, Mask2Anomaly は新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-08T20:07:18Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - FT-TDR: Frequency-guided Transformer and Top-Down Refinement Network for
Blind Face Inpainting [77.78305705925376]
ブラインド・フェイス・インペインティング(ブラインド・フェイス・インペインティング)とは、顔画像の劣化した領域を明確に示さずに、視覚コンテンツを再構築する作業である。
本稿では、これらの課題に対処するために、周波数誘導変換器とTop-Down Refinement Network(FT-TDR)と呼ばれる新しい2段階ブラインドフェイス塗装法を提案する。
論文 参考訳(メタデータ) (2021-08-10T03:12:01Z) - Deep Multi-task Multi-label CNN for Effective Facial Attribute
Classification [53.58763562421771]
DMM-CNN(ディープ・マルチタスク・マルチラベル・CNN)による効果的な顔属性分類(FAC)を提案する。
具体的には、DMM-CNNは、2つの密接に関連するタスク(顔のランドマーク検出とFAC)を共同で最適化し、マルチタスク学習を活用することにより、FACの性能を向上させる。
2つの異なるネットワークアーキテクチャは2つの属性のグループの特徴を抽出するために設計され、トレーニング中に各顔属性に損失重みを自動的に割り当てる新しい動的重み付け方式が提案されている。
論文 参考訳(メタデータ) (2020-02-10T12:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。