論文の概要: ProS: Facial Omni-Representation Learning via Prototype-based
Self-Distillation
- arxiv url: http://arxiv.org/abs/2311.01929v2
- Date: Tue, 7 Nov 2023 15:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 12:21:22.791345
- Title: ProS: Facial Omni-Representation Learning via Prototype-based
Self-Distillation
- Title(参考訳): ProS: プロトタイプに基づく自己蒸留による表情表現学習
- Authors: Xing Di, Yiyu Zheng, Xiaoming Liu, Yu Cheng
- Abstract要約: ProS(Prototype-based Self-Distillation)は、教師なし顔表現学習のための新しいアプローチである。
ProSは2つの視覚変換器(教師と生徒のモデル)で構成されており、異なるイメージで訓練されている。
ProSは、フルおよび数ショット設定の両方で、さまざまなタスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 22.30414271893046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel approach, called Prototype-based
Self-Distillation (ProS), for unsupervised face representation learning. The
existing supervised methods heavily rely on a large amount of annotated
training facial data, which poses challenges in terms of data collection and
privacy concerns. To address these issues, we propose ProS, which leverages a
vast collection of unlabeled face images to learn a comprehensive facial
omni-representation. In particular, ProS consists of two vision-transformers
(teacher and student models) that are trained with different augmented images
(cropping, blurring, coloring, etc.). Besides, we build a face-aware retrieval
system along with augmentations to obtain the curated images comprising
predominantly facial areas. To enhance the discrimination of learned features,
we introduce a prototype-based matching loss that aligns the similarity
distributions between features (teacher or student) and a set of learnable
prototypes. After pre-training, the teacher vision transformer serves as a
backbone for downstream tasks, including attribute estimation, expression
recognition, and landmark alignment, achieved through simple fine-tuning with
additional layers. Extensive experiments demonstrate that our method achieves
state-of-the-art performance on various tasks, both in full and few-shot
settings. Furthermore, we investigate pre-training with synthetic face images,
and ProS exhibits promising performance in this scenario as well.
- Abstract(参考訳): 本稿では,教師なし顔表現学習のためのPrototype-based Self-Distillation (ProS) という新しいアプローチを提案する。
既存の監視手法は、大量のアノテーション付きトレーニング顔データに大きく依存しており、データ収集とプライバシの懸念という面で課題を提起している。
これらの問題に対処するために,我々は,ラベルのない顔画像の膨大なコレクションを活用して,包括的な顔の全表現を学習するプロを提案する。
特にProSは、2つの視覚変換器(教師と生徒のモデル)で構成されており、異なる画像(クロップ、ぼやけ、着色など)で訓練されている。
さらに,顔領域を主眼とするキュレート画像を得るために,顔認識検索システムを構築した。
学習した特徴の識別を強化するために,特徴(教師や学生)と学習可能なプロトタイプとの類似度分布を整合させるプロトタイプベースのマッチング損失を導入する。
事前トレーニング後、教師ビジョントランスフォーマーは属性推定、表現認識、ランドマークアライメントなどの下流タスクのバックボーンとして機能し、追加のレイヤによる単純な微調整によって達成される。
広汎な実験により,本手法は多種多様なタスクにおいて,フルショットと少数ショットの両方で,最先端のパフォーマンスを実現する。
さらに,合成顔画像を用いた事前学習についても検討し,prosは有望な性能を示す。
関連論文リスト
- FACE-AUDITOR: Data Auditing in Facial Recognition Systems [24.082527732931677]
顔画像を扱うスケーラビリティと能力のために、ショットベースの顔認識システムが注目されている。
顔画像の誤使用を防止するために、簡単なアプローチとして、生の顔画像を共有する前に修正する方法がある。
そこで本研究では,FACE-AUDITORの完全ツールキットを提案する。このツールキットは,少数ショットベースの顔認識モデルに問い合わせ,ユーザの顔画像のいずれかがモデルのトレーニングに使用されているかどうかを判断する。
論文 参考訳(メタデータ) (2023-04-05T23:03:54Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Pose-disentangled Contrastive Learning for Self-supervised Facial
Representation [12.677909048435408]
本稿では,汎用的な自己監督型顔表情表現のための,Pose-disentangled Contrastive Learning (PCL) 手法を提案する。
当社のPCLは、まず、顔認識機能からポーズ関連機能を切り離した、ポーズ異形デコーダ(PDD)を考案した。
次に、同じ画像のデータ拡張に基づいてポーズ関連情報を学習する、ポーズ関連コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-24T09:30:51Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - General Facial Representation Learning in a Visual-Linguistic Manner [45.92447707178299]
本稿では,一般の顔表現学習を視覚言語的に行うためのフレームワークFaRLを紹介する。
従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。
本モデルは,顔解析や顔のアライメントといった顔解析タスクにおける最先端の手法を超越したモデルである。
論文 参考訳(メタデータ) (2021-12-06T15:22:05Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - Pro-UIGAN: Progressive Face Hallucination from Occluded Thumbnails [53.080403912727604]
Inpainting Generative Adversarial Network, Pro-UIGANを提案する。
顔の形状を利用して、隠された小さな顔の補充とアップサンプリング(8*)を行う。
Pro-UIGANは、HR面を視覚的に満足させ、下流タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-02T02:29:24Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。