論文の概要: FaceXFormer: A Unified Transformer for Facial Analysis
- arxiv url: http://arxiv.org/abs/2403.12960v1
- Date: Tue, 19 Mar 2024 17:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:04:26.672826
- Title: FaceXFormer: A Unified Transformer for Facial Analysis
- Title(参考訳): FaceXFormer: 顔分析のための統一トランス
- Authors: Kartik Narayan, Vibashan VS, Rama Chellappa, Vishal M. Patel,
- Abstract要約: FaceXformerは、さまざまな顔分析タスクのためのエンドツーエンドの統一トランスフォーマーモデルである。
本モデルでは,8つのタスクにまたがる頑健さと一般化性を実証し,画像の「夢中」を効果的に処理する。
- 参考スコア(独自算出の注目度): 59.94066615853198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce FaceXformer, an end-to-end unified transformer model for a comprehensive range of facial analysis tasks such as face parsing, landmark detection, head pose estimation, attributes recognition, and estimation of age, gender, race, and landmarks visibility. Conventional methods in face analysis have often relied on task-specific designs and preprocessing techniques, which limit their approach to a unified architecture. Unlike these conventional methods, our FaceXformer leverages a transformer-based encoder-decoder architecture where each task is treated as a learnable token, enabling the integration of multiple tasks within a single framework. Moreover, we propose a parameter-efficient decoder, FaceX, which jointly processes face and task tokens, thereby learning generalized and robust face representations across different tasks. To the best of our knowledge, this is the first work to propose a single model capable of handling all these facial analysis tasks using transformers. We conducted a comprehensive analysis of effective backbones for unified face task processing and evaluated different task queries and the synergy between them. We conduct experiments against state-of-the-art specialized models and previous multi-task models in both intra-dataset and cross-dataset evaluations across multiple benchmarks. Additionally, our model effectively handles images "in-the-wild," demonstrating its robustness and generalizability across eight different tasks, all while maintaining the real-time performance of 37 FPS.
- Abstract(参考訳): 本研究では,顔解析,ランドマーク検出,頭部ポーズ推定,属性認識,年齢,性別,人種,ランドマークの可視性など,顔認識タスクの包括的範囲を対象とした,エンドツーエンドの統合トランスフォーマーモデルであるFaceXformerを紹介する。
顔分析における従来の手法は、しばしばタスク固有の設計や前処理技術に依存しており、統一アーキテクチャへのアプローチを制限している。
これらの従来の方法とは異なり、FaceXformerはトランスフォーマーベースのエンコーダデコーダアーキテクチャを利用しており、各タスクは学習可能なトークンとして扱われ、単一のフレームワーク内で複数のタスクを統合することができる。
さらに,顔トークンとタスクトークンを併用して処理し,複数のタスクにまたがる汎用かつ堅牢な顔表現を学習するパラメータ効率向上型デコーダFaceXを提案する。
我々の知る限りでは、トランスを用いた顔分析タスクを処理できる単一のモデルを提案するのは、これが初めてである。
顔タスク処理に有効なバックボーンの包括的解析を行い,その間におけるタスククエリと相乗効果を評価した。
我々は、複数のベンチマークでデータセット内およびデータセット間の評価において、最先端の特殊モデルと過去のマルチタスクモデルに対して実験を行う。
さらに,本モデルでは,37FPSのリアルタイム性能を維持しながら,その頑健さと8つのタスク間の一般化性を実証し,効果的に処理する。
関連論文リスト
- Task-adaptive Q-Face [75.15668556061772]
本稿では,タスク適応型マルチタスク顔分析手法Q-Faceを提案する。
Q-Faceは統合されたモデルで複数の顔分析タスクを同時に実行する。
本手法は,顔表情認識,行動単位検出,顔属性分析,年齢推定,顔ポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-15T03:13:11Z) - Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification [13.995453649985732]
顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。
本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。
提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
論文 参考訳(メタデータ) (2024-04-22T22:02:19Z) - Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-14T15:42:31Z) - A Generalist FaceX via Learning Unified Facial Representation [77.74407008931486]
FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-12-31T17:41:48Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。