論文の概要: Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification
- arxiv url: http://arxiv.org/abs/2404.14606v1
- Date: Mon, 22 Apr 2024 22:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:50:59.375067
- Title: Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification
- Title(参考訳): 顔表情とマスク装着分類のためのクロスタスクマルチブランチ視覚変換器
- Authors: Armando Zhu, Keqin Li, Tong Wu, Peng Zhao, Wenjing Zhou, Bo Hong,
- Abstract要約: 顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。
本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。
提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
- 参考スコア(独自算出の注目度): 13.965841383756192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With wearing masks becoming a new cultural norm, facial expression recognition (FER) while taking masks into account has become a significant challenge. In this paper, we propose a unified multi-branch vision transformer for facial expression recognition and mask wearing classification tasks. Our approach extracts shared features for both tasks using a dual-branch architecture that obtains multi-scale feature representations. Furthermore, we propose a cross-task fusion phase that processes tokens for each task with separate branches, while exchanging information using a cross attention module. Our proposed framework reduces the overall complexity compared with using separate networks for both tasks by the simple yet effective cross-task fusion phase. Extensive experiments demonstrate that our proposed model performs better than or on par with different state-of-the-art methods on both facial expression recognition and facial mask wearing classification task.
- Abstract(参考訳): マスクが新しい文化規範となるにつれ、マスクを考慮した表情認識(FER)が大きな課題となっている。
本稿では,顔表情認識のための統合型マルチブランチ・ビジョン・トランスフォーマと,分類タスクを装着したマスクを提案する。
提案手法は,マルチスケールな特徴表現を得るデュアルブランチアーキテクチャを用いて,両タスクの共通特徴を抽出する。
さらに、クロスアテンションモジュールを用いて情報を交換しながら、各タスクのトークンを別々のブランチで処理するクロスタスク融合フェーズを提案する。
提案するフレームワークは, 単純かつ効果的なクロスタスク融合フェーズにより, 両方のタスクに個別のネットワークを使用する場合と比較して, 全体的な複雑性を低減させる。
大規模な実験により,提案手法は顔の表情認識と顔のマスマスキングの両面において,従来手法と同等以上の性能を示した。
関連論文リスト
- Look Through Masks: Towards Masked Face Recognition with De-Occlusion Distillation [39.159835055226274]
本稿では, マスク面認識の課題に対するアモーダル完了のメカニズムを, エンド・ツー・エンド・エンド・デオクルージョン蒸留フレームワークを用いて移行することを提案する。
合成対向ネットワークを適用して顔補完を行い、マスクの下にある内容を回復し、外観の曖昧さを解消する。
テキスト蒸留モジュールは、訓練済みの一般顔認識モデルを教師として受け取り、その知識を、完成した顔の学習者に伝達する。
論文 参考訳(メタデータ) (2024-09-19T01:00:36Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - FaceXFormer: A Unified Transformer for Facial Analysis [59.94066615853198]
FaceXformerは、さまざまな顔分析タスクのためのエンドツーエンドの統一トランスフォーマーモデルである。
本モデルでは,8つのタスクにまたがる頑健さと一般化性を実証し,画像の「夢中」を効果的に処理する。
論文 参考訳(メタデータ) (2024-03-19T17:58:04Z) - A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting [2.7563282688229664]
この研究は安定拡散の上に構築され、汎視的セグメンテーションに対する潜時拡散アプローチを提案する。
トレーニングは,(1)部分分割マスクを潜伏空間に投影する浅層オートエンコーダの訓練,(2)潜伏空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。
論文 参考訳(メタデータ) (2024-01-18T18:59:19Z) - Seeing through the Mask: Multi-task Generative Mask Decoupling Face
Recognition [47.248075664420874]
現在の一般的な顔認識システムは、隠蔽シーンに遭遇する際の重大な性能劣化に悩まされている。
本稿では,これら2つのタスクを協調的に扱うために,マルチタスクのgEnerative mask dEcoupling Face Recognition (MEER) ネットワークを提案する。
まず,マスクと識別情報を分離する新しいマスクデカップリングモジュールを提案する。
論文 参考訳(メタデータ) (2023-11-20T03:23:03Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - FT-TDR: Frequency-guided Transformer and Top-Down Refinement Network for
Blind Face Inpainting [77.78305705925376]
ブラインド・フェイス・インペインティング(ブラインド・フェイス・インペインティング)とは、顔画像の劣化した領域を明確に示さずに、視覚コンテンツを再構築する作業である。
本稿では、これらの課題に対処するために、周波数誘導変換器とTop-Down Refinement Network(FT-TDR)と呼ばれる新しい2段階ブラインドフェイス塗装法を提案する。
論文 参考訳(メタデータ) (2021-08-10T03:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。