論文の概要: TransFace: Calibrating Transformer Training for Face Recognition from a
Data-Centric Perspective
- arxiv url: http://arxiv.org/abs/2308.10133v1
- Date: Sun, 20 Aug 2023 02:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-08-22 17:37:48.490013
- Title: TransFace: Calibrating Transformer Training for Face Recognition from a
Data-Centric Perspective
- Title(参考訳): TransFace: データ中心から見た顔認識のための校正型トランスフォーマートレーニング
- Authors: Jun Dan, Yang Liu, Haoyu Xie, Jiankang Deng, Haoran Xie, Xuansong Xie
and Baigui Sun
- Abstract要約: 視覚変換器(ViT)は、その本質的なデータ・ハングリーの性質により、様々な視覚タスクにおいて強力な表現能力を示す。
しかし、非常に大きなデータセットを持つ顔認識(FR)のシナリオに適用すると、予期せぬ結果が得られます。
本稿では,DPAPというパッチレベルのデータ拡張戦略とEHSMというハードサンプルマイニング戦略を併用した,TransFaceと呼ばれる優れたFRモデルを提案する。
- 参考スコア(独自算出の注目度): 40.521854111639094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have demonstrated powerful representation ability
in various visual tasks thanks to their intrinsic data-hungry nature. However,
we unexpectedly find that ViTs perform vulnerably when applied to face
recognition (FR) scenarios with extremely large datasets. We investigate the
reasons for this phenomenon and discover that the existing data augmentation
approach and hard sample mining strategy are incompatible with ViTs-based FR
backbone due to the lack of tailored consideration on preserving face
structural information and leveraging each local token information. To remedy
these problems, this paper proposes a superior FR model called TransFace, which
employs a patch-level data augmentation strategy named DPAP and a hard sample
mining strategy named EHSM. Specially, DPAP randomly perturbs the amplitude
information of dominant patches to expand sample diversity, which effectively
alleviates the overfitting problem in ViTs. EHSM utilizes the information
entropy in the local tokens to dynamically adjust the importance weight of easy
and hard samples during training, leading to a more stable prediction.
Experiments on several benchmarks demonstrate the superiority of our TransFace.
Code and models are available at https://github.com/DanJun6737/TransFace.
- Abstract(参考訳): 視覚変換器(ViT)は、その本質的なデータ・ハングリーの性質により、様々な視覚タスクにおいて強力な表現能力を示す。
しかし、非常に大きなデータセットを持つ顔認識(FR)のシナリオに適用すると、予期せぬ結果が得られる。
そこで本研究では,既存のデータ拡張手法とハードサンプルマイニング戦略が,顔構造情報の保存と各局所トークン情報の活用に配慮していないため,vitsベースのfrバックボーンとは相容れないことを発見した。
本稿では,DPAP というパッチレベルのデータ拡張戦略と EHSM というハードサンプルマイニング戦略を併用した,TransFace という優れたFRモデルを提案する。
特にDPAPは、優勢なパッチの振幅情報をランダムに乱してサンプルの多様性を拡大し、ViTのオーバーフィッティング問題を効果的に軽減する。
EHSMは、ローカルトークンにおける情報エントロピーを利用して、トレーニング中に簡単で硬いサンプルの重み付けを動的に調整し、より安定した予測をもたらす。
いくつかのベンチマークの実験は、TransFaceの優位性を示しています。
コードとモデルはhttps://github.com/danjun6737/transfaceで入手できる。
関連論文リスト
- Scalable Face Security Vision Foundation Model for Deepfake, Diffusion, and Spoofing Detection [23.328598687742712]
まず,実顔画像の基本表現を学習するためのFS-VFMを提案する。
マスク画像モデリング(MIM)とインスタンス識別(ID)を相乗化する3つの学習目標,すなわち3Cを導入する。
我々は,MIMとIDをシームレスに結合し,その基盤となる局所-グローバル対応を確立する,信頼性の高い自己蒸留機構を提案する。
11の公開ベンチマークの実験では、FS-VFMは多様なVFMよりも一貫して一般化されている。
論文 参考訳(メタデータ) (2025-10-12T15:38:03Z) - ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers [7.505873965164197]
ViTaPEsは,視覚的知覚のためのタスク非依存表現を学習するためのフレームワークである。
提案手法は,モーダル内構造を捉えるために,新しいマルチスケール位置符号化方式を利用する。
その結果,ViTaPEは様々な認識タスクにおいて最先端のベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T14:19:29Z) - OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Transferable Adversarial Facial Images for Privacy Protection [15.211743719312613]
視覚的品質を維持しつつ、転送性を改善した新しい顔プライバシー保護方式を提案する。
生成モデルの潜在空間をトラバースするために,まずグローバルな逆潜時探索を利用する。
次に、視覚的アイデンティティ情報を保存するための重要なランドマーク正規化モジュールを導入する。
論文 参考訳(メタデータ) (2024-07-18T02:16:11Z) - Text-Guided Face Recognition using Multi-Granularity Cross-Modal
Contrastive Learning [0.0]
テキスト誘導顔認識(TGFR)を導入し、自然言語記述の形で顔属性を統合することの影響を解析する。
TGFRは、特に低画質の画像において、既存の顔認識モデルよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-14T22:04:22Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised
Pretraining [36.44039681893334]
ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
現在の最先端ハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するのみである。
本稿では、自己教師付き事前学習手順を取り入れた新しい分解スペクトル空間変換器を提案する。
論文 参考訳(メタデータ) (2023-09-18T02:05:52Z) - S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens [45.06704981913823]
Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。
統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
論文 参考訳(メタデータ) (2023-09-07T22:36:22Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - HiMFR: A Hybrid Masked Face Recognition Through Face Inpainting [0.7868449549351486]
エンドツーエンドの複合顔認証システム、HiMFRを提案する。
マスクされた顔検出モジュールは、事前訓練された視覚変換器を適用して、顔がマスクで覆われているか否かを検出する。
Inpaintingモジュールは、GAN(Generative Adversarial Network)に基づいたきめ細かい画像のインペイントモデルを使用して、顔を復元する。
最後に、EfficientNetB3バックボーンを備えたViTに基づくハイブリッド顔認識モジュールは、顔を認識する。
論文 参考訳(メタデータ) (2022-09-19T11:26:49Z) - Multi-Prior Learning via Neural Architecture Search for Blind Face
Restoration [61.27907052910136]
Blind Face Restoration (BFR)は、高品質な顔画像から高品質な顔画像を復元することを目的としている。
1)手動チューニングを伴わない強力なネットワークアーキテクチャの導出方法,2) 複数の顔前者からの補完情報を1つのネットワークで取得して復元性能を向上させる方法,の2つの大きな課題がある。
特定検索空間内において,適切な特徴抽出アーキテクチャを適応的に探索する顔復元検索ネットワーク(FRSNet)を提案する。
論文 参考訳(メタデータ) (2022-06-28T12:29:53Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - GMFIM: A Generative Mask-guided Facial Image Manipulation Model for
Privacy Preservation [0.7734726150561088]
入力顔画像に知覚不可能な編集を適用するために,GANをベースとしたマスク誘導顔画像マニピュレーションモデルを提案する。
我々のモデルは、最先端の手法と比較して、自動顔認識システムに対してより良い性能を実現することができる。
論文 参考訳(メタデータ) (2022-01-10T14:09:14Z) - End2End Occluded Face Recognition by Masking Corrupted Features [82.27588990277192]
最先端の一般的な顔認識モデルは、隠蔽された顔画像に対してうまく一般化しない。
本稿では,1つのエンドツーエンドのディープニューラルネットワークに基づいて,オクルージョンに頑健な新しい顔認識手法を提案する。
我々のアプローチは、深い畳み込みニューラルネットワークから破損した特徴を発見し、動的に学習されたマスクによってそれらをきれいにする。
論文 参考訳(メタデータ) (2021-08-21T09:08:41Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - FedFace: Collaborative Learning of Face Recognition Model [66.84737075622421]
FedFaceは顔認識モデルの協調学習のためのフレームワークである。
各クライアントに格納された顔画像が、他のクライアントや中央ホストと共有されない、正確で汎用的な顔認識モデルを学ぶ。
コードとトレーニング済みモデルは公開される予定です。
論文 参考訳(メタデータ) (2021-04-07T09:25:32Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。