論文の概要: FaceXFormer: A Unified Transformer for Facial Analysis
- arxiv url: http://arxiv.org/abs/2403.12960v3
- Date: Mon, 10 Mar 2025 17:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:17:01.736910
- Title: FaceXFormer: A Unified Transformer for Facial Analysis
- Title(参考訳): FaceXFormer: 顔分析のための統一トランス
- Authors: Kartik Narayan, Vibashan VS, Rama Chellappa, Vishal M. Patel,
- Abstract要約: FaceXFormerは10の顔分析タスクを実行することができるエンドツーエンドの統一トランスフォーマーモデルである。
タスクには、顔解析、ランドマーク検出、ヘッドポーズ推定、属性予測、年齢、性別、人種推定が含まれる。
私たちは、FaceXFormerを10種類の多様な顔認識データセットでトレーニングし、特殊モデルとマルチタスクモデルの両方に対して評価する。
- 参考スコア(独自算出の注目度): 59.94066615853198
- License:
- Abstract: In this work, we introduce FaceXFormer, an end-to-end unified transformer model capable of performing ten facial analysis tasks within a single framework. These tasks include face parsing, landmark detection, head pose estimation, attribute prediction, age, gender, and race estimation, facial expression recognition, face recognition, and face visibility. Traditional face analysis approaches rely on task-specific architectures and pre-processing techniques, limiting scalability and integration. In contrast, FaceXFormer employs a transformer-based encoder-decoder architecture, where each task is represented as a learnable token, enabling seamless multi-task processing within a unified model. To enhance efficiency, we introduce FaceX, a lightweight decoder with a novel bi-directional cross-attention mechanism, which jointly processes face and task tokens to learn robust and generalized facial representations. We train FaceXFormer on ten diverse face perception datasets and evaluate it against both specialized and multi-task models across multiple benchmarks, demonstrating state-of-the-art or competitive performance. Additionally, we analyze the impact of various components of FaceXFormer on performance, assess real-world robustness in "in-the-wild" settings, and conduct a computational performance evaluation. To the best of our knowledge, FaceXFormer is the first model capable of handling ten facial analysis tasks while maintaining real-time performance at 33.21 FPS. Code: https://github.com/Kartik-3004/facexformer
- Abstract(参考訳): 本研究では,1つのフレームワーク内で10の顔分析タスクを実行できるエンドツーエンド統合トランスフォーマーモデルであるFaceXFormerを紹介する。
これらのタスクには、顔解析、ランドマーク検出、頭部ポーズ推定、属性予測、年齢、性別、人種推定、表情認識、顔認識、顔の可視性が含まれる。
従来の顔分析アプローチは、スケーラビリティと統合を制限し、タスク固有のアーキテクチャと前処理技術に依存している。
対照的にFaceXFormerはトランスフォーマーベースのエンコーダデコーダアーキテクチャを採用しており、各タスクは学習可能なトークンとして表現され、統一モデル内でシームレスなマルチタスク処理を可能にする。
効率を向上させるために、顔トークンとタスクトークンを共同処理して、堅牢で一般化された顔表現を学習する、新しい双方向のクロスアテンション機構を備えた軽量デコーダFaceXを導入する。
私たちは、FaceXFormerを10の多様な顔認識データセットでトレーニングし、複数のベンチマークにまたがる特殊モデルとマルチタスクモデルの両方に対して評価し、最先端または競合的なパフォーマンスを示します。
さらに,FaceXFormerの各種コンポーネントがパフォーマンスに与える影響を分析し,実世界のロバスト性を評価するとともに,計算性能の評価を行う。
私たちの知る限り、FaceXFormerは、33.21 FPSでリアルタイムのパフォーマンスを維持しながら、10の顔分析タスクを処理できる最初のモデルです。
コード:https://github.com/Kartik-3004/facexformer
関連論文リスト
- Task-adaptive Q-Face [75.15668556061772]
本稿では,タスク適応型マルチタスク顔分析手法Q-Faceを提案する。
Q-Faceは統合されたモデルで複数の顔分析タスクを同時に実行する。
本手法は,顔表情認識,行動単位検出,顔属性分析,年齢推定,顔ポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-15T03:13:11Z) - Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-14T15:42:31Z) - A Generalist FaceX via Learning Unified Facial Representation [77.74407008931486]
FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-12-31T17:41:48Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - Towards a Real-Time Facial Analysis System [13.649384403827359]
本稿では,リアルタイム顔分析システムのシステムレベル設計について述べる。
オブジェクトの検出、分類、回帰のためのディープニューラルネットワークのコレクションにより、カメラビューに現れる各人物の年齢、性別、表情、顔の類似性を認識する。
一般的なオフ・ザ・シェルフアーキテクチャの結果、システムの精度は最先端の手法に匹敵し、認識速度はリアルタイムの要求を満たすことが示された。
論文 参考訳(メタデータ) (2021-09-21T18:27:15Z) - FaceX-Zoo: A PyTorch Toolbox for Face Recognition [62.038018324643325]
顔認識の研究開発コミュニティを指向した新しいオープンソースフレームワーク、FaceX-Zooを紹介します。
facex-zooは、さまざまな監視ヘッドとバックボーンを備えたトレーニングモジュールを提供する。
訓練されたモデルの検証とプライマリアプリケーションのために、シンプルで機能的なFace SDKが提供されます。
論文 参考訳(メタデータ) (2021-01-12T11:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。