論文の概要: Toward High Quality Facial Representation Learning
- arxiv url: http://arxiv.org/abs/2309.03575v1
- Date: Thu, 7 Sep 2023 09:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:50:41.070439
- Title: Toward High Quality Facial Representation Learning
- Title(参考訳): 高品質な顔表現学習を目指して
- Authors: Yue Wang, Jinlong Peng, Jiangning Zhang, Ran Yi, Liang Liu, Yabiao
Wang, Chengjie Wang
- Abstract要約: 我々はMask Contrastive Face (MCF)と呼ばれる自己教師型事前学習フレームワークを提案する。
トレーニング済みの視覚バックボーンの特徴マップを監視項目として使用し、マスク画像モデリングに部分的にトレーニング済みのデコーダを使用する。
このモデルはAFLW-19顔アライメントの0.932 NME_diag$とLaPa顔解析の93.96 F1スコアを達成する。
- 参考スコア(独自算出の注目度): 58.873356953627614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face analysis tasks have a wide range of applications, but the universal
facial representation has only been explored in a few works. In this paper, we
explore high-performance pre-training methods to boost the face analysis tasks
such as face alignment and face parsing. We propose a self-supervised
pre-training framework, called \textbf{\it Mask Contrastive Face (MCF)}, with
mask image modeling and a contrastive strategy specially adjusted for face
domain tasks. To improve the facial representation quality, we use feature map
of a pre-trained visual backbone as a supervision item and use a partially
pre-trained decoder for mask image modeling. To handle the face identity during
the pre-training stage, we further use random masks to build contrastive
learning pairs. We conduct the pre-training on the LAION-FACE-cropped dataset,
a variants of LAION-FACE 20M, which contains more than 20 million face images
from Internet websites. For efficiency pre-training, we explore our framework
pre-training performance on a small part of LAION-FACE-cropped and verify the
superiority with different pre-training settings. Our model pre-trained with
the full pre-training dataset outperforms the state-of-the-art methods on
multiple downstream tasks. Our model achieves 0.932 NME$_{diag}$ for AFLW-19
face alignment and 93.96 F1 score for LaPa face parsing. Code is available at
https://github.com/nomewang/MCF.
- Abstract(参考訳): 顔分析タスクには幅広い応用があるが、普遍的な顔表現はいくつかの作品でしか研究されていない。
本稿では,顔アライメントや顔解析などの顔分析タスクを向上するための,高性能な事前学習手法を検討する。
本稿では,マスク画像モデリングと顔領域タスク用に特別に調整されたコントラスト戦略を備えた,自己教師付き事前学習フレームワーク \textbf{\it mask contrastive face (mcf)}を提案する。
顔の表現品質を向上させるために,事前訓練された視覚バックボーンの特徴マップを監督項目として使用し,マスク画像モデリングに部分的に訓練済みデコーダを使用する。
事前学習段階における顔の同一性を扱うために、ランダムマスクを用いて対照的な学習ペアを構築する。
我々は、インターネットのウェブサイトから2000万枚以上の顔画像を含むLAION-FACE 20Mの亜種であるLAION-FACE-croppedデータセットの事前トレーニングを行う。
効率向上のために,LAION-FACEクロッピングのごく一部で事前学習性能を検証し,事前学習の異なる設定で優位性を検証した。
トレーニング前のデータセットで事前学習したモデルは、複数の下流タスクで最先端の手法よりも優れています。
本モデルは,aflw-19顔アライメントに0.932 nme$_{diag}$,lapa顔解析に93.96 f1スコアを達成する。
コードはhttps://github.com/nomewang/mcfで入手できる。
関連論文リスト
- Bridging the Gaps: Utilizing Unlabeled Face Recognition Datasets to Boost Semi-Supervised Facial Expression Recognition [5.750927184237346]
我々は、半教師付きFERを高めるために、大きな未ラベルの顔認識(FR)データセットを活用することに重点を置いている。
具体的には,アノテーションを使わずに大規模な顔画像の事前訓練を行う。
ラベル付き画像や多彩な画像の不足を緩和するために、Mixupベースのデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2024-10-23T07:26:19Z) - 15M Multimodal Facial Image-Text Dataset [5.552727861734425]
FaceCaption-15Mは、1500万対以上の顔画像と、それに対応する顔の特徴の自然言語記述で構成されている。
画像品質, テキストの自然性, テキストの複雑さ, テキスト画像の関連性を総合的に分析し, FaceCaption-15Mの優位性を実証した。
論文 参考訳(メタデータ) (2024-07-11T14:00:14Z) - Self-Supervised Facial Representation Learning with Facial Region
Awareness [13.06996608324306]
自己教師付き事前学習は、様々な視覚的タスクに役立つ伝達可能な表現を学習するのに有効であることが証明されている。
この目標に向けての最近の取り組みは、各顔画像を全体として扱うことに限定されている。
本研究では,一貫したグローバルおよびローカルな顔表現を学習するための,自己教師型顔表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-04T15:48:56Z) - A Generalist FaceX via Learning Unified Facial Representation [77.74407008931486]
FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-12-31T17:41:48Z) - DiffFace: Diffusion-based Face Swapping with Facial Guidance [24.50570533781642]
DiffFaceと呼ばれる拡散型顔交換フレームワークを初めて提案する。
トレーニングID条件DDPM、顔誘導によるサンプリング、および目標保存ブレンディングで構成されている。
DiffFaceは、トレーニングの安定性、高い忠実度、サンプルの多様性、制御性など、よりよいメリットを実現している。
論文 参考訳(メタデータ) (2022-12-27T02:51:46Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - General Facial Representation Learning in a Visual-Linguistic Manner [45.92447707178299]
本稿では,一般の顔表現学習を視覚言語的に行うためのフレームワークFaRLを紹介する。
従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。
本モデルは,顔解析や顔のアライメントといった顔解析タスクにおける最先端の手法を超越したモデルである。
論文 参考訳(メタデータ) (2021-12-06T15:22:05Z) - FedFace: Collaborative Learning of Face Recognition Model [66.84737075622421]
FedFaceは顔認識モデルの協調学習のためのフレームワークである。
各クライアントに格納された顔画像が、他のクライアントや中央ホストと共有されない、正確で汎用的な顔認識モデルを学ぶ。
コードとトレーニング済みモデルは公開される予定です。
論文 参考訳(メタデータ) (2021-04-07T09:25:32Z) - Semi-Siamese Training for Shallow Face Learning [78.7386209619276]
セミ・シームズ・トレーニング(SST)という新しいトレーニング手法を導入する。
一対のセミ・シームズネットワークが前方伝播構造を構成し、トレーニング損失を更新ギャラリーキューで計算する。
提案手法は外部依存を伴わずに開発されており,既存の損失関数やネットワークアーキテクチャと柔軟に統合することができる。
論文 参考訳(メタデータ) (2020-07-16T15:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。