論文の概要: Pre-training strategies and datasets for facial representation learning
- arxiv url: http://arxiv.org/abs/2103.16554v1
- Date: Tue, 30 Mar 2021 17:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:09:33.443458
- Title: Pre-training strategies and datasets for facial representation learning
- Title(参考訳): 表情学習のための事前学習戦略とデータセット
- Authors: Adrian Bulat and Shiyang Cheng and Jing Yang and Andrew Garbett and
Enrique Sanchez and Georgios Tzimiropoulos
- Abstract要約: いくつかの顔分析タスクやデータセットに適用可能な普遍的な顔表現の探索方法を示す。
顔に適応する2つの大規模表現学習を体系的に検討する。
私たちの主な2つの発見は以下の通りです: 完全にインザワイルドな未処理データに対する教師なし事前トレーニングは一貫性を提供し、場合によっては大幅な精度向上をもたらします。
- 参考スコア(独自算出の注目度): 58.8289362536262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What is the best way to learn a universal face representation? Recent work on
Deep Learning in the area of face analysis has focused on supervised learning
for specific tasks of interest (e.g. face recognition, facial landmark
localization etc.) but has overlooked the overarching question of how to find a
facial representation that can be readily adapted to several facial analysis
tasks and datasets. To this end, we make the following 4 contributions: (a) we
introduce, for the first time, a comprehensive evaluation benchmark for facial
representation learning consisting of 5 important face analysis tasks. (b) We
systematically investigate two ways of large-scale representation learning
applied to faces: supervised and unsupervised pre-training. Importantly, we
focus our evaluations on the case of few-shot facial learning. (c) We
investigate important properties of the training datasets including their size
and quality (labelled, unlabelled or even uncurated). (d) To draw our
conclusions, we conducted a very large number of experiments. Our main two
findings are: (1) Unsupervised pre-training on completely in-the-wild,
uncurated data provides consistent and, in some cases, significant accuracy
improvements for all facial tasks considered. (2) Many existing facial video
datasets seem to have a large amount of redundancy. We will release code,
pre-trained models and data to facilitate future research.
- Abstract(参考訳): 普遍的な顔表現を学ぶ最善の方法は何か?
顔分析分野におけるディープラーニングに関する最近の研究は、特定の課題(例えば、)に対する教師あり学習に焦点を当てている。
顔認識、顔のランドマークのローカライゼーションなど
しかし、いくつかの顔分析タスクやデータセットに容易に適応できる顔の表現を見つける方法に関する包括的な質問は見落としている。
a) 5つの重要な顔分析タスクからなる顔表現学習のための総合的評価ベンチマークを初めて紹介する。
b) 顔に適用する大規模表現学習の方法として,教師なしと教師なし事前学習の2つを体系的に検討した。
重要なことは、数発の顔学習の場合に焦点をあてることである。
(c) トレーニングデータセットの規模や品質(ラベルなし, ラベルなし, あるいは未修正)を含む重要な特性について検討する。
(d) 結論を導き出すため, 非常に多くの実験を行った。
主な2つの発見は, (1) 完全に管理されていない未処理データに対する教師なし事前訓練は, 一貫性があり, 場合によっては, 考慮されたすべての顔タスクの精度が大幅に向上する。
2)既存の顔画像データセットの多くは冗長性が高いと考えられる。
将来の研究を促進するために、コード、事前訓練されたモデル、データをリリースします。
関連論文リスト
- Self-Supervised Facial Representation Learning with Facial Region
Awareness [13.06996608324306]
自己教師付き事前学習は、様々な視覚的タスクに役立つ伝達可能な表現を学習するのに有効であることが証明されている。
この目標に向けての最近の取り組みは、各顔画像を全体として扱うことに限定されている。
本研究では,一貫したグローバルおよびローカルな顔表現を学習するための,自己教師型顔表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-04T15:48:56Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Are Face Detection Models Biased? [69.68854430664399]
顔領域の局所化による顔検出領域のバイアスについて検討した。
既存の顔検出データセットの多くは、このような分析に適したアノテーションを欠いている。
性別や肌の音色による検出精度の相違を観察し, 画像診断以外の要因の相互関係を考察した。
論文 参考訳(メタデータ) (2022-11-07T14:27:55Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - General Facial Representation Learning in a Visual-Linguistic Manner [45.92447707178299]
本稿では,一般の顔表現学習を視覚言語的に行うためのフレームワークFaRLを紹介する。
従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。
本モデルは,顔解析や顔のアライメントといった顔解析タスクにおける最先端の手法を超越したモデルである。
論文 参考訳(メタデータ) (2021-12-06T15:22:05Z) - Teacher-Student Training and Triplet Loss to Reduce the Effect of
Drastic Face Occlusion [15.44796695070395]
我々は、完全に視覚的な顔で訓練された畳み込みニューラルネットワーク(CNN)が、非常に低い性能レベルを示すことを示した。
隠蔽面上でのディープラーニングモデルの微調整は非常に有用であるが、完全可視面上で訓練されたモデルから知識を抽出することにより、さらなる性能向上が得られることを示す。
本研究の主な貢献は,三重項損失に基づく知識蒸留の新たなアプローチであり,モデルとタスクをまたいだ一般化である。
論文 参考訳(メタデータ) (2021-11-20T11:13:46Z) - Towards a Real-Time Facial Analysis System [13.649384403827359]
本稿では,リアルタイム顔分析システムのシステムレベル設計について述べる。
オブジェクトの検出、分類、回帰のためのディープニューラルネットワークのコレクションにより、カメラビューに現れる各人物の年齢、性別、表情、顔の類似性を認識する。
一般的なオフ・ザ・シェルフアーキテクチャの結果、システムの精度は最先端の手法に匹敵し、認識速度はリアルタイムの要求を満たすことが示された。
論文 参考訳(メタデータ) (2021-09-21T18:27:15Z) - FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in
the Wild [50.8865921538953]
年齢推定に顔のセマンティクスを明示的に組み込む手法を提案する。
我々は,顔解析に基づくネットワークを設計し,異なるスケールで意味情報を学習する。
提案手法は,既存の年齢推定手法を常に上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-21T14:31:32Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。