論文の概要: TransFace++: Rethinking the Face Recognition Paradigm with a Focus on Accuracy, Efficiency, and Security
- arxiv url: http://arxiv.org/abs/2308.10133v2
- Date: Sat, 25 Oct 2025 03:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.19888
- Title: TransFace++: Rethinking the Face Recognition Paradigm with a Focus on Accuracy, Efficiency, and Security
- Title(参考訳): TransFace++: 正確性、効率、セキュリティを重視した顔認識パラダイムの再考
- Authors: Jun Dan, Yang Liu, Baigui Sun, Jiankang Deng, Shan Luo,
- Abstract要約: 顔認識(FR)技術は、ディープラーニングの出現に大きく貢献している。
ほとんどの既存のFRモデルは、畳み込みニューラルネットワーク(CNN)上に構築されており、RGBの顔画像をモデルの入力として取り込んでいる。
本稿では,2つの新しいFRフレームワークであるTransFaceとTransFace++を提案する。
- 参考スコア(独自算出の注目度): 56.24794071698785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face Recognition (FR) technology has made significant strides with the emergence of deep learning. Typically, most existing FR models are built upon Convolutional Neural Networks (CNN) and take RGB face images as the model's input. In this work, we take a closer look at existing FR paradigms from high-efficiency, security, and precision perspectives, and identify the following three problems: (i) CNN frameworks are vulnerable in capturing global facial features and modeling the correlations between local facial features. (ii) Selecting RGB face images as the model's input greatly degrades the model's inference efficiency, increasing the extra computation costs. (iii) In the real-world FR system that operates on RGB face images, the integrity of user privacy may be compromised if hackers successfully penetrate and gain access to the input of this model. To solve these three issues, we propose two novel FR frameworks, i.e., TransFace and TransFace++, which successfully explore the feasibility of applying ViTs and image bytes to FR tasks, respectively. Experiments on popular face benchmarks demonstrate the superiority of our TransFace and TransFace++. Code is available at https://github.com/DanJun6737/TransFace_pp.
- Abstract(参考訳): 顔認識(FR)技術は、ディープラーニングの出現に大きく貢献している。
通常、既存のFRモデルは畳み込みニューラルネットワーク(CNN)上に構築され、RGBの顔画像をモデルの入力として取り込む。
本稿では、高効率、セキュリティ、高精度の観点から既存のFRパラダイムを詳しく調べ、以下の3つの問題を特定します。
(i)CNNフレームワークは、グローバルな顔の特徴を捉え、局所的な顔の特徴間の相関をモデル化するのに脆弱である。
(II)モデル入力によるRGB顔画像の選択は、モデルの推論効率を大幅に低下させ、余分な計算コストを増大させる。
3)RGBの顔画像を利用する現実世界のFRシステムでは,ハッカーが侵入してこのモデルの入力にアクセスできれば,ユーザプライバシの整合性が損なわれる可能性がある。
これら3つの問題を解決するために, FRタスクにViTと画像バイトを適用する可能性について, それぞれ検討した2つの新しいFRフレームワークであるTransFaceとTransFace++を提案する。
人気のある顔ベンチマークの実験は、TransFaceとTransFace++の優位性を実証している。
コードはhttps://github.com/DanJun6737/TransFace_pp.comから入手できる。
関連論文リスト
- ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers [7.505873965164197]
ViTaPEsは,視覚的知覚のためのタスク非依存表現を学習するためのフレームワークである。
提案手法は,モーダル内構造を捉えるために,新しいマルチスケール位置符号化方式を利用する。
その結果,ViTaPEは様々な認識タスクにおいて最先端のベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T14:19:29Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised
Pretraining [36.44039681893334]
ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
現在の最先端ハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するのみである。
本稿では、自己教師付き事前学習手順を取り入れた新しい分解スペクトル空間変換器を提案する。
論文 参考訳(メタデータ) (2023-09-18T02:05:52Z) - S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens [45.06704981913823]
Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。
統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
論文 参考訳(メタデータ) (2023-09-07T22:36:22Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。