論文の概要: General Facial Representation Learning in a Visual-Linguistic Manner
- arxiv url: http://arxiv.org/abs/2112.03109v1
- Date: Mon, 6 Dec 2021 15:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 14:55:41.126700
- Title: General Facial Representation Learning in a Visual-Linguistic Manner
- Title(参考訳): 視覚言語的手法による一般顔表現学習
- Authors: Yinglin Zheng, Hao Yang, Ting Zhang, Jianmin Bao, Dongdong Chen,
Yangyu Huang, Lu Yuan, Dong Chen, Ming Zeng, Fang Wen
- Abstract要約: 本稿では,一般の顔表現学習を視覚言語的に行うためのフレームワークFaRLを紹介する。
従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。
本モデルは,顔解析や顔のアライメントといった顔解析タスクにおける最先端の手法を超越したモデルである。
- 参考スコア(独自算出の注目度): 45.92447707178299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to learn a universal facial representation that boosts all face analysis
tasks? This paper takes one step toward this goal. In this paper, we study the
transfer performance of pre-trained models on face analysis tasks and introduce
a framework, called FaRL, for general Facial Representation Learning in a
visual-linguistic manner. On one hand, the framework involves a contrastive
loss to learn high-level semantic meaning from image-text pairs. On the other
hand, we propose exploring low-level information simultaneously to further
enhance the face representation, by adding a masked image modeling. We perform
pre-training on LAION-FACE, a dataset containing large amount of face
image-text pairs, and evaluate the representation capability on multiple
downstream tasks. We show that FaRL achieves better transfer performance
compared with previous pre-trained models. We also verify its superiority in
the low-data regime. More importantly, our model surpasses the state-of-the-art
methods on face analysis tasks including face parsing and face alignment.
- Abstract(参考訳): すべての顔分析タスクを促進する普遍的な顔表現の学習方法
この論文はこの目標に向かって一歩前進する。
本稿では,顔分析タスクにおける事前学習モデルの伝達性能について検討し,顔の表情表現学習を視覚言語的に行うためのFaRLというフレームワークを提案する。
一方、このフレームワークは、画像とテキストのペアから高レベルの意味を学ぶために、対照的な損失を伴う。
一方,マスク付き画像モデリングを付加することにより,顔表現をさらに強化するために,低レベル情報を同時に探索することを提案する。
大量の顔画像とテキストのペアを含むデータセットであるLAION-FACEで事前学習を行い、複数の下流タスクにおける表現能力を評価する。
従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。
また、低データ体制におけるその優位性を検証する。
さらに重要なことは、顔解析や顔アライメントを含む顔分析タスクにおける最先端の手法を超越したモデルである。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - Self-Supervised Facial Representation Learning with Facial Region
Awareness [13.06996608324306]
自己教師付き事前学習は、様々な視覚的タスクに役立つ伝達可能な表現を学習するのに有効であることが証明されている。
この目標に向けての最近の取り組みは、各顔画像を全体として扱うことに限定されている。
本研究では,一貫したグローバルおよびローカルな顔表現を学習するための,自己教師型顔表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-04T15:48:56Z) - A Generalist FaceX via Learning Unified Facial Representation [77.74407008931486]
FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-12-31T17:41:48Z) - A Generative Framework for Self-Supervised Facial Representation Learning [18.094262972295702]
自己教師付き表現学習は、ペア化されたデータセットに頼ることなく、強力な一般化能力に注目されるようになった。
自己監督型顔表現学習は、顔のアイデンティティ、表情、ポーズや光といった外部要因の結合により未解決のままである。
自己教師型顔表現のための新しい生成フレームワークであるLatentFaceを提案する。
論文 参考訳(メタデータ) (2023-09-15T09:34:05Z) - Toward High Quality Facial Representation Learning [58.873356953627614]
我々はMask Contrastive Face (MCF)と呼ばれる自己教師型事前学習フレームワークを提案する。
トレーニング済みの視覚バックボーンの特徴マップを監視項目として使用し、マスク画像モデリングに部分的にトレーニング済みのデコーダを使用する。
このモデルはAFLW-19顔アライメントの0.932 NME_diag$とLaPa顔解析の93.96 F1スコアを達成する。
論文 参考訳(メタデータ) (2023-09-07T09:11:49Z) - Pose-disentangled Contrastive Learning for Self-supervised Facial
Representation [12.677909048435408]
本稿では,汎用的な自己監督型顔表情表現のための,Pose-disentangled Contrastive Learning (PCL) 手法を提案する。
当社のPCLは、まず、顔認識機能からポーズ関連機能を切り離した、ポーズ異形デコーダ(PDD)を考案した。
次に、同じ画像のデータ拡張に基づいてポーズ関連情報を学習する、ポーズ関連コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-24T09:30:51Z) - Biphasic Face Photo-Sketch Synthesis via Semantic-Driven Generative
Adversarial Network with Graph Representation Learning [40.544844623958426]
本稿では,これらの問題に対処するためのセマンティック・ドリブン・ジェネレーティブ・アドバイザリ・ネットワークを提案する。
人間の顔が異なる空間構造を持つことを考慮し、まず、生成元にクラスワイドなセマンティックレイアウトを注入する。
IntrA-class Semantic Graph (IASG) とInteR-class Structure Graph (IRSG) という2種類の表現グラフを構築した。
論文 参考訳(メタデータ) (2022-01-05T13:14:14Z) - Pre-training strategies and datasets for facial representation learning [58.8289362536262]
いくつかの顔分析タスクやデータセットに適用可能な普遍的な顔表現の探索方法を示す。
顔に適応する2つの大規模表現学習を体系的に検討する。
私たちの主な2つの発見は以下の通りです: 完全にインザワイルドな未処理データに対する教師なし事前トレーニングは一貫性を提供し、場合によっては大幅な精度向上をもたらします。
論文 参考訳(メタデータ) (2021-03-30T17:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。