論文の概要: Proto-Former: Unified Facial Landmark Detection by Prototype Transformer
- arxiv url: http://arxiv.org/abs/2510.15338v1
- Date: Fri, 17 Oct 2025 06:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.486782
- Title: Proto-Former: Unified Facial Landmark Detection by Prototype Transformer
- Title(参考訳): Proto-Former: プロトタイプトランスによる顔画像の統一的ランドマーク検出
- Authors: Shengkai Hu, Haozhe Qi, Jun Wan, Jiaxing Huang, Lefei Zhang, Hang Sun, Dacheng Tao,
- Abstract要約: Proto-Formerは、統一的で適応的でエンドツーエンドの顔ランドマーク検出フレームワークである。
統一されたアーキテクチャ内で、複数のデータセットをまたいだ共同トレーニングを可能にする。
Proto-Formerは、既存の最先端手法よりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 77.47431726595111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning have significantly improved facial landmark detection. However, existing facial landmark detection datasets often define different numbers of landmarks, and most mainstream methods can only be trained on a single dataset. This limits the model generalization to different datasets and hinders the development of a unified model. To address this issue, we propose Proto-Former, a unified, adaptive, end-to-end facial landmark detection framework that explicitly enhances dataset-specific facial structural representations (i.e., prototype). Proto-Former overcomes the limitations of single-dataset training by enabling joint training across multiple datasets within a unified architecture. Specifically, Proto-Former comprises two key components: an Adaptive Prototype-Aware Encoder (APAE) that performs adaptive feature extraction and learns prototype representations, and a Progressive Prototype-Aware Decoder (PPAD) that refines these prototypes to generate prompts that guide the model's attention to key facial regions. Furthermore, we introduce a novel Prototype-Aware (PA) loss, which achieves optimal path finding by constraining the selection weights of prototype experts. This loss function effectively resolves the problem of prototype expert addressing instability during multi-dataset training, alleviates gradient conflicts, and enables the extraction of more accurate facial structure features. Extensive experiments on widely used benchmark datasets demonstrate that our Proto-Former achieves superior performance compared to existing state-of-the-art methods. The code is publicly available at: https://github.com/Husk021118/Proto-Former.
- Abstract(参考訳): 近年のディープラーニングは顔の目印検出を大幅に改善している。
しかし、既存の顔のランドマーク検出データセットは、しばしば異なる数のランドマークを定義する。
これにより、モデルの一般化は異なるデータセットに制限され、統一モデルの開発を妨げる。
この問題に対処するために、データセット固有の顔構造表現(プロトタイプ)を明確に拡張する、統一的で適応的でエンドツーエンドの顔ランドマーク検出フレームワークであるProto-Formerを提案する。
Proto-Formerは、統一アーキテクチャ内の複数のデータセット間での共同トレーニングを可能にすることで、単一データセットトレーニングの制限を克服する。
具体的には、Adaptive Prototype-Aware Encoder (APAE) と、これらのプロトタイプを洗練して、モデルの重要顔領域への注意を導くプロンプトを生成するProgressive Prototype-Aware Decoder (PPAD) である。
さらに,プロトタイプ専門家の選択重みを制約することにより,最適経路探索を実現する新しいプロトタイプ・アウェア(PA)損失を導入する。
この損失関数は、マルチデータセットトレーニング中の不安定性に対処するプロトタイプ専門家の問題を効果的に解決し、勾配の衝突を軽減し、より正確な顔構造特徴の抽出を可能にする。
広く使われているベンチマークデータセットに対する大規模な実験は、我々のProto-Formerが既存の最先端手法よりも優れたパフォーマンスを達成していることを示している。
コードは、https://github.com/Husk021118/Proto-Former.comで公開されている。
関連論文リスト
- Efficient Prototype Consistency Learning in Medical Image Segmentation via Joint Uncertainty and Data Augmentation [32.47805202531351]
半教師付き医療画像セグメンテーションにプロトタイプ学習が出現している。
共同不確実性定量化とデータ拡張による効率的なプロトタイプの整合性学習を提案する。
我々のフレームワークは従来の最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-05-22T06:25:32Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Learning with Mixture of Prototypes for Out-of-Distribution Detection [25.67011646236146]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングデータから遠く離れたテストサンプルを検出することを目的としている。
サンプルの多様性を捉えるために,各クラスを複数のプロトタイプでモデル化したプロトタイプ混在型学習法(PALM)を提案する。
提案手法はCIFAR-100ベンチマークにおいて93.82の最先端平均AUROC性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T00:52:50Z) - ProtoDiff: Learning to Learn Prototypical Networks by Task-Guided
Diffusion [44.805452233966534]
プロトタイプベースのメタ学習は、数発の学習課題に対処するための強力なテクニックとして登場した。
ランダムノイズからタスク固有のプロトタイプを徐々に生成するフレームワークであるProtoDiffを紹介する。
我々は、基礎となるプロトタイプの分布を正確に捉える能力を示すために、徹底的なアブレーション研究を行っている。
論文 参考訳(メタデータ) (2023-06-26T15:26:24Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Prototype Completion for Few-Shot Learning [13.63424509914303]
少数ショット学習は、いくつかの例で新しいクラスを認識することを目的としている。
事前学習に基づく手法は,特徴抽出器を事前学習し,最寄りのセントロイド型メタラーニングを通して微調整することで,この問題に効果的に対処する。
本稿では,完成度に基づくメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。