論文の概要: TransFace++: Rethinking the Face Recognition Paradigm with a Focus on Accuracy, Efficiency, and Security
- arxiv url: http://arxiv.org/abs/2308.10133v2
- Date: Sat, 25 Oct 2025 03:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.19888
- Title: TransFace++: Rethinking the Face Recognition Paradigm with a Focus on Accuracy, Efficiency, and Security
- Title(参考訳): TransFace++: 正確性、効率、セキュリティを重視した顔認識パラダイムの再考
- Authors: Jun Dan, Yang Liu, Baigui Sun, Jiankang Deng, Shan Luo,
- Abstract要約: 顔認識(FR)技術は、ディープラーニングの出現に大きく貢献している。
ほとんどの既存のFRモデルは、畳み込みニューラルネットワーク(CNN)上に構築されており、RGBの顔画像をモデルの入力として取り込んでいる。
本稿では,2つの新しいFRフレームワークであるTransFaceとTransFace++を提案する。
- 参考スコア(独自算出の注目度): 56.24794071698785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face Recognition (FR) technology has made significant strides with the emergence of deep learning. Typically, most existing FR models are built upon Convolutional Neural Networks (CNN) and take RGB face images as the model's input. In this work, we take a closer look at existing FR paradigms from high-efficiency, security, and precision perspectives, and identify the following three problems: (i) CNN frameworks are vulnerable in capturing global facial features and modeling the correlations between local facial features. (ii) Selecting RGB face images as the model's input greatly degrades the model's inference efficiency, increasing the extra computation costs. (iii) In the real-world FR system that operates on RGB face images, the integrity of user privacy may be compromised if hackers successfully penetrate and gain access to the input of this model. To solve these three issues, we propose two novel FR frameworks, i.e., TransFace and TransFace++, which successfully explore the feasibility of applying ViTs and image bytes to FR tasks, respectively. Experiments on popular face benchmarks demonstrate the superiority of our TransFace and TransFace++. Code is available at https://github.com/DanJun6737/TransFace_pp.
- Abstract(参考訳): 顔認識(FR)技術は、ディープラーニングの出現に大きく貢献している。
通常、既存のFRモデルは畳み込みニューラルネットワーク(CNN)上に構築され、RGBの顔画像をモデルの入力として取り込む。
本稿では、高効率、セキュリティ、高精度の観点から既存のFRパラダイムを詳しく調べ、以下の3つの問題を特定します。
(i)CNNフレームワークは、グローバルな顔の特徴を捉え、局所的な顔の特徴間の相関をモデル化するのに脆弱である。
(II)モデル入力によるRGB顔画像の選択は、モデルの推論効率を大幅に低下させ、余分な計算コストを増大させる。
3)RGBの顔画像を利用する現実世界のFRシステムでは,ハッカーが侵入してこのモデルの入力にアクセスできれば,ユーザプライバシの整合性が損なわれる可能性がある。
これら3つの問題を解決するために, FRタスクにViTと画像バイトを適用する可能性について, それぞれ検討した2つの新しいFRフレームワークであるTransFaceとTransFace++を提案する。
人気のある顔ベンチマークの実験は、TransFaceとTransFace++の優位性を実証している。
コードはhttps://github.com/DanJun6737/TransFace_pp.comから入手できる。
関連論文リスト
- Scalable Face Security Vision Foundation Model for Deepfake, Diffusion, and Spoofing Detection [23.328598687742712]
まず,実顔画像の基本表現を学習するためのFS-VFMを提案する。
マスク画像モデリング(MIM)とインスタンス識別(ID)を相乗化する3つの学習目標,すなわち3Cを導入する。
我々は,MIMとIDをシームレスに結合し,その基盤となる局所-グローバル対応を確立する,信頼性の高い自己蒸留機構を提案する。
11の公開ベンチマークの実験では、FS-VFMは多様なVFMよりも一貫して一般化されている。
論文 参考訳(メタデータ) (2025-10-12T15:38:03Z) - ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers [7.505873965164197]
ViTaPEsは,視覚的知覚のためのタスク非依存表現を学習するためのフレームワークである。
提案手法は,モーダル内構造を捉えるために,新しいマルチスケール位置符号化方式を利用する。
その結果,ViTaPEは様々な認識タスクにおいて最先端のベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T14:19:29Z) - OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Transferable Adversarial Facial Images for Privacy Protection [15.211743719312613]
視覚的品質を維持しつつ、転送性を改善した新しい顔プライバシー保護方式を提案する。
生成モデルの潜在空間をトラバースするために,まずグローバルな逆潜時探索を利用する。
次に、視覚的アイデンティティ情報を保存するための重要なランドマーク正規化モジュールを導入する。
論文 参考訳(メタデータ) (2024-07-18T02:16:11Z) - Text-Guided Face Recognition using Multi-Granularity Cross-Modal
Contrastive Learning [0.0]
テキスト誘導顔認識(TGFR)を導入し、自然言語記述の形で顔属性を統合することの影響を解析する。
TGFRは、特に低画質の画像において、既存の顔認識モデルよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-14T22:04:22Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised
Pretraining [36.44039681893334]
ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
現在の最先端ハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するのみである。
本稿では、自己教師付き事前学習手順を取り入れた新しい分解スペクトル空間変換器を提案する。
論文 参考訳(メタデータ) (2023-09-18T02:05:52Z) - S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens [45.06704981913823]
Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。
統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
論文 参考訳(メタデータ) (2023-09-07T22:36:22Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - HiMFR: A Hybrid Masked Face Recognition Through Face Inpainting [0.7868449549351486]
エンドツーエンドの複合顔認証システム、HiMFRを提案する。
マスクされた顔検出モジュールは、事前訓練された視覚変換器を適用して、顔がマスクで覆われているか否かを検出する。
Inpaintingモジュールは、GAN(Generative Adversarial Network)に基づいたきめ細かい画像のインペイントモデルを使用して、顔を復元する。
最後に、EfficientNetB3バックボーンを備えたViTに基づくハイブリッド顔認識モジュールは、顔を認識する。
論文 参考訳(メタデータ) (2022-09-19T11:26:49Z) - Multi-Prior Learning via Neural Architecture Search for Blind Face
Restoration [61.27907052910136]
Blind Face Restoration (BFR)は、高品質な顔画像から高品質な顔画像を復元することを目的としている。
1)手動チューニングを伴わない強力なネットワークアーキテクチャの導出方法,2) 複数の顔前者からの補完情報を1つのネットワークで取得して復元性能を向上させる方法,の2つの大きな課題がある。
特定検索空間内において,適切な特徴抽出アーキテクチャを適応的に探索する顔復元検索ネットワーク(FRSNet)を提案する。
論文 参考訳(メタデータ) (2022-06-28T12:29:53Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - GMFIM: A Generative Mask-guided Facial Image Manipulation Model for
Privacy Preservation [0.7734726150561088]
入力顔画像に知覚不可能な編集を適用するために,GANをベースとしたマスク誘導顔画像マニピュレーションモデルを提案する。
我々のモデルは、最先端の手法と比較して、自動顔認識システムに対してより良い性能を実現することができる。
論文 参考訳(メタデータ) (2022-01-10T14:09:14Z) - End2End Occluded Face Recognition by Masking Corrupted Features [82.27588990277192]
最先端の一般的な顔認識モデルは、隠蔽された顔画像に対してうまく一般化しない。
本稿では,1つのエンドツーエンドのディープニューラルネットワークに基づいて,オクルージョンに頑健な新しい顔認識手法を提案する。
我々のアプローチは、深い畳み込みニューラルネットワークから破損した特徴を発見し、動的に学習されたマスクによってそれらをきれいにする。
論文 参考訳(メタデータ) (2021-08-21T09:08:41Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - FedFace: Collaborative Learning of Face Recognition Model [66.84737075622421]
FedFaceは顔認識モデルの協調学習のためのフレームワークである。
各クライアントに格納された顔画像が、他のクライアントや中央ホストと共有されない、正確で汎用的な顔認識モデルを学ぶ。
コードとトレーニング済みモデルは公開される予定です。
論文 参考訳(メタデータ) (2021-04-07T09:25:32Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。