論文の概要: Foundation versus Domain-specific Models: Performance Comparison, Fusion, and Explainability in Face Recognition
- arxiv url: http://arxiv.org/abs/2507.03541v1
- Date: Fri, 04 Jul 2025 12:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.772852
- Title: Foundation versus Domain-specific Models: Performance Comparison, Fusion, and Explainability in Face Recognition
- Title(参考訳): ファウンデーション対ドメイン固有モデル:顔認識における性能比較、融合、説明可能性
- Authors: Redwan Sony, Parisa Farmanifard, Arun Ross, Anil K. Jain,
- Abstract要約: 考慮されたすべてのデータセットにおいて、ドメイン固有のモデルはゼロショット基礎モデルよりも優れていた。
ファンデーションモデルとドメイン固有FRモデルとの単純なスコアレベル融合により、低FMRでの精度が向上した。
基礎モデルはFRパイプラインに説明可能性を与えるために使用できる。
- 参考スコア(独自算出の注目度): 23.062479287841878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the following question: How do generic foundation models (e.g., CLIP, BLIP, LLaVa, DINO) compare against a domain-specific face recognition model (viz., AdaFace or ArcFace) on the face recognition task? Through a series of experiments involving several foundation models and benchmark datasets, we are able to report the following findings: (a) In all datasets considered, domain-specific models outperformed zero-shot foundation models. (b) The performance of zero-shot generic foundation models improves on over-segmented face images than tightly cropped faces thereby suggesting the importance of contextual clues. For example, at a False Match Rate (FMR) of 0.01%, the True Match Rate (TMR) of OpenCLIP improved from 64.97% to 81.73% on the LFW dataset as the face crop increased from 112x112 to 250x250 while the TMR of domain-specific AdaFace dropped from 99.09% to 77.31%. (c) A simple score-level fusion of a foundation model with a domain-specific FR model improved the accuracy at low FMRs. For example, the TMR of AdaFace when fused with BLIP improved from 72.64% to 83.31% at an FMR of 0.0001% on the IJB-B dataset and from 73.17% to 85.81% on the IJB-C dataset. (d) Foundation models, such as ChatGPT, can be used to impart explainability to the FR pipeline (e.g., ``Despite minor lighting and head tilt differences, the two left-profile images show high consistency in forehead slope, nose shape, chin contour...''). In some instances, foundation models are even able to resolve low-confidence decisions made by AdaFace (e.g., ``Although AdaFace assigns a low similarity score of 0.21, both images exhibit visual similarity...and the pair is likely of the same person''), thereby reiterating the importance of combining domain-specific FR models with generic foundation models in a judicious manner.
- Abstract(参考訳): 本稿では、一般的な基礎モデル(例えば、CLIP、BLIP、LLaVa、DINO)は、顔認識タスクにおいて、ドメイン固有の顔認識モデル(viz、AdaFace、ArcFace)と比較するにはどうすればよいか?
いくつかの基礎モデルとベンチマークデータセットを含む一連の実験を通じて、以下の結果が報告できる。
(a) 考慮されたすべてのデータセットにおいて、ドメイン固有モデルはゼロショット基礎モデルよりも優れていた。
b) ゼロショット・ジェネリック・ファンデーション・モデルの性能は, きつく刈り取られた顔よりも, オーバーセグメンテーションされた顔画像で改善され, 文脈的手がかりの重要性が示唆される。
例えば、0.01%のFalse Match Rate(FMR)において、OpenCLIPのTrue Match Rate(TMR)はLFWデータセット上で64.97%から81.73%に改善され、顔作物は112x112から250x250に増加し、ドメイン固有のAdaFaceのTMRは99.09%から77.31%に低下した。
(c) ファンデーションモデルとドメイン固有FRモデルとの単純なスコアレベル融合により, 低FMRでの精度が向上した。
例えば、BLIPと融合した場合のAdaFaceのTMRは72.64%から83.31%に改善され、IJB-Bデータセットでは0.0001%、IJB-Cデータセットでは73.17%から85.81%に改善された。
(d)ChatGPTのようなファンデーションモデルはFRパイプラインに説明可能性を与えるために使用することができる(例:「軽微な照明と頭部傾斜の違いにもかかわらず、2つの左画像は額斜面、鼻形状、顎輪郭...」)。
ファウンデーションモデルは、AdaFaceの低信頼度決定を解決できる(AdaFaceは0.21の低類似度スコアを割り当てているが、どちらの画像も視覚的類似性を示す...そしてペアは同じ人物である可能性が高い)ため、ドメイン固有のFRモデルと一般的な基礎モデルを組み合わせることの重要性を再考する。
関連論文リスト
- VariFace: Fair and Diverse Synthetic Dataset Generation for Face Recognition [4.409387706050884]
VariFaceは2段階の拡散に基づくパイプラインで、公正で多様な合成顔データセットを作成し、顔認識モデルをトレーニングする。
同じデータセットサイズに制約された場合、VariFaceは、以前の合成データセットよりも大幅にパフォーマンスが向上する。
VariFaceは6つの評価データセットで実際のデータセット(CASIA-WebFace)を上回った。
論文 参考訳(メタデータ) (2024-12-09T06:21:11Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - NIR-to-VIS Face Recognition via Embedding Relations and Coordinates of
the Pairwise Features [5.044100238869375]
顔認識モデルに簡単に追加可能な'Relation Module'を提案する。
顔画像から抽出された局所特徴は、顔の各成分の情報を含む。
提案モジュールでは14.81%のランク-1精度と15.47%の検証率で0.1%のFAR改善を実現した。
論文 参考訳(メタデータ) (2022-08-04T02:53:44Z) - Blind Face Restoration: Benchmark Datasets and a Baseline Model [63.053331687284064]
Blind Face Restoration (BFR) は、対応する低品質 (LQ) 入力から高品質 (HQ) の顔画像を構築することを目的としている。
EDFace-Celeb-1M (BFR128) と EDFace-Celeb-150K (BFR512) と呼ばれる2つのブラインドフェイス復元ベンチマークデータセットを最初に合成する。
最先端の手法は、ブラー、ノイズ、低解像度、JPEG圧縮アーティファクト、それらの組み合わせ(完全な劣化)の5つの設定でベンチマークされる。
論文 参考訳(メタデータ) (2022-06-08T06:34:24Z) - FedFace: Collaborative Learning of Face Recognition Model [66.84737075622421]
FedFaceは顔認識モデルの協調学習のためのフレームワークである。
各クライアントに格納された顔画像が、他のクライアントや中央ホストと共有されない、正確で汎用的な顔認識モデルを学ぶ。
コードとトレーニング済みモデルは公開される予定です。
論文 参考訳(メタデータ) (2021-04-07T09:25:32Z) - Multi-Margin based Decorrelation Learning for Heterogeneous Face
Recognition [90.26023388850771]
本稿では,超球面空間におけるデコリレーション表現を抽出するディープニューラルネットワーク手法を提案する。
提案するフレームワークは,不均一表現ネットワークとデコリレーション表現学習の2つのコンポーネントに分けることができる。
2つの難解な異種顔データベースに対する実験結果から,本手法は検証タスクと認識タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-25T07:01:12Z) - Multi-Scale Thermal to Visible Face Verification via Attribute Guided
Synthesis [55.29770222566124]
可視画像から抽出した属性を用いて、熱画像から属性保存された可視画像を合成し、クロスモーダルマッチングを行う。
抽出した属性によって導かれる熱画像から可視像を合成するために, 新規なマルチスケールジェネレータを提案する。
事前訓練されたVGG-Faceネットワークを利用して、合成画像と入力可視画像から特徴を抽出し、検証を行う。
論文 参考訳(メタデータ) (2020-04-20T01:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。