Fugu-MT 論文翻訳(概要): SwinFace: A Multi-task Transformer for Face Recognition, Expression Recognition, Age Estimation and Attribute Estimation

論文の概要: SwinFace: A Multi-task Transformer for Face Recognition, Expression Recognition, Age Estimation and Attribute Estimation

arxiv url: http://arxiv.org/abs/2308.11509v1
Date: Tue, 22 Aug 2023 15:38:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 17:27:24.991505
Title: SwinFace: A Multi-task Transformer for Face Recognition, Expression Recognition, Age Estimation and Attribute Estimation
Title（参考訳）: SwinFace: 顔認識, 表情認識, 年齢推定, 属性推定のためのマルチタスク変換器
Authors: Lixiong Qin, Mei Wang, Chao Deng, Ke Wang, Xi Chen, Jiani Hu, Weihong Deng
Abstract要約: 本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
参考スコア（独自算出の注目度）: 60.94239810407917
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, vision transformers have been introduced into face recognition and analysis and have achieved performance breakthroughs. However, most previous methods generally train a single model or an ensemble of models to perform the desired task, which ignores the synergy among different tasks and fails to achieve improved prediction accuracy, increased data efficiency, and reduced training time. This paper presents a multi-purpose algorithm for simultaneous face recognition, facial expression recognition, age estimation, and face attribute estimation (40 attributes including gender) based on a single Swin Transformer. Our design, the SwinFace, consists of a single shared backbone together with a subnet for each set of related tasks. To address the conflicts among multiple tasks and meet the different demands of tasks, a Multi-Level Channel Attention (MLCA) module is integrated into each task-specific analysis subnet, which can adaptively select the features from optimal levels and channels to perform the desired tasks. Extensive experiments show that the proposed model has a better understanding of the face and achieves excellent performance for all tasks. Especially, it achieves 90.97% accuracy on RAF-DB and 0.22 $\epsilon$-error on CLAP2015, which are state-of-the-art results on facial expression recognition and age estimation respectively. The code and models will be made publicly available at https://github.com/lxq1000/SwinFace.
Abstract（参考訳）: 近年、視覚変換器が顔認識と分析に導入され、性能のブレークスルーが達成されている。しかし,従来の手法では,各タスク間の相乗効果を無視し,予測精度の向上,データ効率の向上,トレーニング時間の短縮に失敗する単一モデルやモデルのアンサンブルを訓練することが多い。本稿では,Swin Transformerを用いた顔認識,表情認識,年齢推定,顔属性推定(性別を含む40の属性)を同時に行うための多目的アルゴリズムを提案する。私たちのデザインであるSwinFaceは、単一の共有バックボーンと関連するタスクセットのサブネットで構成されています。複数のタスク間の競合に対処し、異なるタスクの要求を満たすために、Multi-Level Channel Attention (MLCA)モジュールを各タスク固有の分析サブネットに統合し、最適なレベルとチャネルから機能を適応的に選択し、望ましいタスクを実行する。大規模な実験により,提案モデルでは顔の理解が向上し,全てのタスクに優れた性能が得られた。特に、RAF-DBでは90.97%の精度、CLAP2015では0.22$\epsilon$-errorを実現している。コードとモデルはhttps://github.com/lxq1000/swinfaceで公開される予定だ。

関連論文リスト

Task-adaptive Q-Face [75.15668556061772]
本稿では,タスク適応型マルチタスク顔分析手法Q-Faceを提案する。 Q-Faceは統合されたモデルで複数の顔分析タスクを同時に実行する。本手法は,顔表情認識,行動単位検出,顔属性分析,年齢推定,顔ポーズ推定における最先端性能を実現する。
論文参考訳（メタデータ） (2024-05-15T03:13:11Z)
FaceXFormer: A Unified Transformer for Facial Analysis [59.94066615853198]
FaceXformerは、さまざまな顔分析タスクのためのエンドツーエンドの統一トランスフォーマーモデルである。本モデルでは,8つのタスクにまたがる頑健さと一般化性を実証し,画像の「夢中」を効果的に処理する。
論文参考訳（メタデータ） (2024-03-19T17:58:04Z)
Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。 Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-14T15:42:31Z)
MiVOLO: Multi-input Transformer for Age and Gender Estimation [0.0]
最新の視覚変換器を用いた年齢・性別推定手法であるMiVOLOを提案する。本手法は両タスクを統合された二重入力/出力モデルに統合する。モデルの年齢認識性能を人間レベルの精度と比較し、ほとんどの年齢範囲で人間よりも優れていることを示す。
論文参考訳（メタデータ） (2023-07-10T14:58:10Z)
MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文参考訳（メタデータ） (2022-05-17T13:03:18Z)
Towards a Real-Time Facial Analysis System [13.649384403827359]
本稿では,リアルタイム顔分析システムのシステムレベル設計について述べる。オブジェクトの検出、分類、回帰のためのディープニューラルネットワークのコレクションにより、カメラビューに現れる各人物の年齢、性別、表情、顔の類似性を認識する。一般的なオフ・ザ・シェルフアーキテクチャの結果、システムの精度は最先端の手法に匹敵し、認識速度はリアルタイムの要求を満たすことが示された。
論文参考訳（メタデータ） (2021-09-21T18:27:15Z)
FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in the Wild [50.8865921538953]
年齢推定に顔のセマンティクスを明示的に組み込む手法を提案する。我々は,顔解析に基づくネットワークを設計し,異なるスケールで意味情報を学習する。提案手法は,既存の年齢推定手法を常に上回っていることを示す。
論文参考訳（メタデータ） (2021-06-21T14:31:32Z)
Facial expression and attributes recognition based on multi-task learning of lightweight neural networks [9.162936410696409]
顔の識別と顔の属性の分類のための軽量畳み込みニューラルネットワークのマルチタスクトレーニングを検討する。顔の表情を予測するためには,これらのネットワークを微調整する必要がある。 MobileNet、EfficientNet、RexNetアーキテクチャに基づくいくつかのモデルが提示される。
論文参考訳（メタデータ） (2021-03-31T14:21:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。