論文の概要: FaceXFormer: A Unified Transformer for Facial Analysis
- arxiv url: http://arxiv.org/abs/2403.12960v2
- Date: Thu, 19 Dec 2024 22:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:39.341089
- Title: FaceXFormer: A Unified Transformer for Facial Analysis
- Title(参考訳): FaceXFormer: 顔分析のための統一トランス
- Authors: Kartik Narayan, Vibashan VS, Rama Chellappa, Vishal M. Patel,
- Abstract要約: FaceXFormerは、9つの顔分析タスクを実行することができるエンドツーエンドの統一トランスフォーマーモデルである。
これらのタスクには、顔解析、ランドマーク検出、頭部ポーズ推定、属性予測、年齢、性別、人種、表情、顔の可視性などが含まれる。
本稿では,顔トークンとタスクトークンを共同処理し,汎用的で堅牢な顔表現を学習する新しいパラメータ効率デコーダFaceXを提案する。
- 参考スコア(独自算出の注目度): 59.94066615853198
- License:
- Abstract: In this work, we introduce FaceXFormer, an end-to-end unified transformer model capable of performing nine facial analysis tasks including face parsing, landmark detection, head pose estimation, attribute prediction, and estimation of age, gender, race, expression, and face visibility within a single framework. Conventional methods in face analysis have often relied on task-specific designs and pre-processing techniques, which limit their scalability and integration into a unified architecture. Unlike these conventional methods, FaceXFormer leverages a transformer-based encoder-decoder architecture where each task is treated as a learnable token, enabling the seamless integration and simultaneous processing of multiple tasks within a single framework. Moreover, we propose a novel parameter-efficient decoder, FaceX, which jointly processes face and task tokens, thereby learning generalized and robust face representations across different tasks. We jointly trained FaceXFormer on nine face perception datasets and conducted experiments against specialized and multi-task models in both intra-dataset and cross-dataset evaluations across multiple benchmarks, showcasing state-of-the-art or competitive performance. Further, we performed a comprehensive analysis of different backbones for unified face task processing and evaluated our model "in-the-wild", demonstrating its robustness and generalizability. To the best of our knowledge, this is the first work to propose a single model capable of handling nine facial analysis tasks while maintaining real-time performance at 33.21 FPS.
- Abstract(参考訳): 本研究では, 顔解析, ランドマーク検出, 頭部ポーズ推定, 属性予測, 年齢, 性別, 人種, 表情, 顔の可視性などの9つの顔分析タスクを, 1つのフレームワークで行うことができる, エンドツーエンド統合トランスフォーマーモデルであるFaceXFormerを紹介する。
顔分析における従来の手法は、しばしばタスク固有の設計や前処理技術に依存しており、拡張性と統合性を制限している。
これらの従来の方法とは異なり、FaceXFormerはトランスフォーマーベースのエンコーダ・デコーダアーキテクチャを利用しており、各タスクは学習可能なトークンとして扱われ、単一のフレームワーク内で複数のタスクのシームレスな統合と同時処理を可能にする。
さらに,顔トークンとタスクトークンを共同で処理し,複数のタスクにまたがる汎用かつ堅牢な顔表現を学習する,パラメータ効率のよい新しいデコーダFaceXを提案する。
FaceXFormerを9つの顔認識データセットで共同でトレーニングし、複数のベンチマークにまたがって、データ内およびクロスデータセットの評価において、特殊およびマルチタスクモデルに対して実験を行い、最先端または競争性能を示しました。
さらに,顔タスク処理を統一するための異なるバックボーンの包括的解析を行い,その頑健さと一般化性を示すモデル"in-the-wild"を評価した。
我々の知る限りでは、33.21FPSのリアルタイム性能を維持しながら、9つの顔分析タスクを処理できる単一モデルを提案するのはこれが初めてである。
関連論文リスト
- Task-adaptive Q-Face [75.15668556061772]
本稿では,タスク適応型マルチタスク顔分析手法Q-Faceを提案する。
Q-Faceは統合されたモデルで複数の顔分析タスクを同時に実行する。
本手法は,顔表情認識,行動単位検出,顔属性分析,年齢推定,顔ポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-15T03:13:11Z) - Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification [13.995453649985732]
顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。
本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。
提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
論文 参考訳(メタデータ) (2024-04-22T22:02:19Z) - Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-14T15:42:31Z) - A Generalist FaceX via Learning Unified Facial Representation [77.74407008931486]
FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-12-31T17:41:48Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。