論文の概要: Faceptor: A Generalist Model for Face Perception
- arxiv url: http://arxiv.org/abs/2403.09500v1
- Date: Thu, 14 Mar 2024 15:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 19:57:52.427202
- Title: Faceptor: A Generalist Model for Face Perception
- Title(参考訳): Faceptor: 顔認識のためのジェネリストモデル
- Authors: Lixiong Qin, Mei Wang, Xuannan Liu, Yuhang Zhang, Wei Deng, Xiaoshuai Song, Weiran Xu, Weihong Deng,
- Abstract要約: Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 52.8066001012464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the comprehensive research conducted on various face analysis tasks, there is a growing interest among researchers to develop a unified approach to face perception. Existing methods mainly discuss unified representation and training, which lack task extensibility and application efficiency. To tackle this issue, we focus on the unified model structure, exploring a face generalist model. As an intuitive design, Naive Faceptor enables tasks with the same output shape and granularity to share the structural design of the standardized output head, achieving improved task extensibility. Furthermore, Faceptor is proposed to adopt a well-designed single-encoder dual-decoder architecture, allowing task-specific queries to represent new-coming semantics. This design enhances the unification of model structure while improving application efficiency in terms of storage overhead. Additionally, we introduce Layer-Attention into Faceptor, enabling the model to adaptively select features from optimal layers to perform the desired tasks. Through joint training on 13 face perception datasets, Faceptor achieves exceptional performance in facial landmark localization, face parsing, age estimation, expression recognition, binary attribute classification, and face recognition, achieving or surpassing specialized methods in most tasks. Our training framework can also be applied to auxiliary supervised learning, significantly improving performance in data-sparse tasks such as age estimation and expression recognition. The code and models will be made publicly available at https://github.com/lxq1000/Faceptor.
- Abstract(参考訳): 様々な顔分析タスクに関する総合的な研究により、研究者の間では、顔の知覚に統一的なアプローチを開発することへの関心が高まっている。
既存の手法では、タスクの拡張性やアプリケーションの効率性に欠ける統一表現とトレーニングを主に議論している。
この問題に対処するために、我々は統合モデル構造に注目し、顔ジェネラリストモデルを探究する。
直感的な設計として、Naive Faceptorは、同じ出力形状と粒度を持つタスクを標準化された出力ヘッドの構造設計を共有することを可能にし、タスク拡張性の向上を実現している。
さらに、Fceptorはよく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用し、タスク固有のクエリが新しいセマンティクスを表現できるようにする。
この設計は、ストレージオーバーヘッドの観点からアプリケーションの効率を向上しつつ、モデル構造の統合を強化する。
さらに、FceptorにLayer-Attentionを導入し、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行できるようにします。
13の顔認識データセットのジョイントトレーニングを通じて、顔のランドマークのローカライゼーション、顔解析、年齢推定、表現認識、二項属性分類、顔認識において例外的なパフォーマンスを達成し、ほとんどのタスクにおいて特殊手法を達成または超越する。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
コードとモデルはhttps://github.com/lxq1000/Faceptor.comで公開される。
関連論文リスト
- Guided Interpretable Facial Expression Recognition via Spatial Action
Unit Cues [59.3149596834771]
本研究では,空間行動単位(aus)を分類器のトレーニングに明示的に組み込んで,深い解釈可能なモデルを構築するための学習戦略を提案する。
提案手法は,分類性能を劣化させることなく,階層的解釈性を向上させることができる。
論文 参考訳(メタデータ) (2024-02-01T02:13:49Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - Exploring Large-scale Unlabeled Faces to Enhance Facial Expression
Recognition [12.677143408225167]
本研究では、ラベルのない顔データを用いて表現認識モデルを効果的に訓練する半教師付き学習フレームワークを提案する。
本手法では,顔認識データを完全に活用するために,信頼度を適応的に調整できる動的しきい値モジュールを用いる。
ABAW5 EXPRタスクでは,オフィシャル検証セットにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2023-03-15T13:43:06Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Towards a Real-Time Facial Analysis System [13.649384403827359]
本稿では,リアルタイム顔分析システムのシステムレベル設計について述べる。
オブジェクトの検出、分類、回帰のためのディープニューラルネットワークのコレクションにより、カメラビューに現れる各人物の年齢、性別、表情、顔の類似性を認識する。
一般的なオフ・ザ・シェルフアーキテクチャの結果、システムの精度は最先端の手法に匹敵し、認識速度はリアルタイムの要求を満たすことが示された。
論文 参考訳(メタデータ) (2021-09-21T18:27:15Z) - FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in
the Wild [50.8865921538953]
年齢推定に顔のセマンティクスを明示的に組み込む手法を提案する。
我々は,顔解析に基づくネットワークを設計し,異なるスケールで意味情報を学習する。
提案手法は,既存の年齢推定手法を常に上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-21T14:31:32Z) - FaceX-Zoo: A PyTorch Toolbox for Face Recognition [62.038018324643325]
顔認識の研究開発コミュニティを指向した新しいオープンソースフレームワーク、FaceX-Zooを紹介します。
facex-zooは、さまざまな監視ヘッドとバックボーンを備えたトレーニングモジュールを提供する。
訓練されたモデルの検証とプライマリアプリケーションのために、シンプルで機能的なFace SDKが提供されます。
論文 参考訳(メタデータ) (2021-01-12T11:06:50Z) - Boosting Deep Face Recognition via Disentangling Appearance and Geometry [33.196270681809395]
顔認識タスクにおける外観と幾何学的表現を両立させる枠組みを提案する。
空間変換を取り入れた幾何学的に同一の顔を生成する。
提案手法は深層顔認識モデルの性能を向上させる。
論文 参考訳(メタデータ) (2020-01-13T23:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。