論文の概要: FRoundation: Are Foundation Models Ready for Face Recognition?
- arxiv url: http://arxiv.org/abs/2410.23831v3
- Date: Fri, 07 Feb 2025 09:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:53:34.913472
- Title: FRoundation: Are Foundation Models Ready for Face Recognition?
- Title(参考訳): FRoundation: ファウンデーションモデルは顔認識に対応しているのか?
- Authors: Tahar Chettaoui, Naser Damer, Fadi Boutros,
- Abstract要約: ファウンデーションモデルが特定の顔認識領域(FR)に適しているかを検討する。
合成データを含むデータ可用性の異なるレベルにまたがって、これらのモデルのFRへの適用を提案、実証する。
この結果から, 汎用性にもかかわらず, 事前学習された基礎モデルは, この課題に特化して訓練された類似アーキテクチャと比較すると, FRにおいて性能が劣る傾向が示唆された。
- 参考スコア(独自算出の注目度): 8.045296450065019
- License:
- Abstract: Foundation models are predominantly trained in an unsupervised or self-supervised manner on highly diverse and large-scale datasets, making them broadly applicable to various downstream tasks. In this work, we investigate for the first time whether such models are suitable for the specific domain of face recognition (FR). We further propose and demonstrate the adaptation of these models for FR across different levels of data availability, including synthetic data. Extensive experiments are conducted on multiple foundation models and datasets of varying scales for training and fine-tuning, with evaluation on a wide range of benchmarks. Our results indicate that, despite their versatility, pre-trained foundation models tend to underperform in FR in comparison with similar architectures trained specifically for this task. However, fine-tuning foundation models yields promising results, often surpassing models trained from scratch, particularly when training data is limited. For example, after fine-tuning only on 1K identities, DINOv2 ViT-S achieved average verification accuracy on LFW, CALFW, CPLFW, CFP-FP, and AgeDB30 benchmarks of 87.10%, compared to 64.70% achieved by the same model and without fine-tuning. While training the same model architecture, ViT-S, from scratch on 1k identities reached 69.96%. With access to larger-scale FR training datasets, these performances reach 96.03% and 95.59% for the DINOv2 and CLIP ViT-L models, respectively. In comparison to the ViT-based architectures trained from scratch for FR, fine-tuned same architectures of foundation models achieve similar performance while requiring lower training computational costs and not relying on the assumption of extensive data availability. We further demonstrated the use of synthetic face data, showing improved performances over both pre-trained foundation and ViT models.
- Abstract(参考訳): ファンデーションモデルは、非常に多種多様で大規模なデータセットに基づいて、主に教師なしまたは自己監督的な方法で訓練されており、様々な下流タスクに広く適用できる。
本研究では,このようなモデルが特定の顔認識領域(FR)に適しているかどうかを初めて検討する。
さらに、合成データを含むデータ可用性の異なるレベルにまたがって、これらのモデルのFRへの適用を提案、実証する。
複数の基礎モデルと様々なスケールのデータセットを用いて、トレーニングと微調整を行い、幅広いベンチマークで評価する。
この結果から, 汎用性にもかかわらず, 事前学習された基礎モデルは, この課題に特化して訓練された類似アーキテクチャと比較すると, FRにおいて性能が劣る傾向が示唆された。
しかし、微調整ファンデーションモデルは有望な結果をもたらし、特にトレーニングデータに制限がある場合、スクラッチからトレーニングされたモデルを上回ることがしばしばある。
例えば、DINOv2 ViT-Sは1KのIDのみを微調整した後、LFW, CALFW, CPLFW, CFP-FP, AgeDB30ベンチマークの精度を87.10%向上させた。
同じモデルアーキテクチャであるViT-Sを1kのIDでスクラッチからトレーニングしている間、69.96%に達した。
大規模FRトレーニングデータセットへのアクセスにより、これらのパフォーマンスはそれぞれDINOv2とCLIP ViT-Lモデルの96.03%と95.59%に達する。
FRのスクラッチからトレーニングされたViTベースのアーキテクチャと比較して、基礎モデルの微調整された同一アーキテクチャは、より低いトレーニング計算コストを必要としながら、広範なデータ可用性の仮定に依存しない、同様のパフォーマンスを実現する。
さらに, 合成顔データの利用を実証し, 事前学習した基礎モデルとViTモデルの両方の性能向上を示した。
関連論文リスト
- When are Foundation Models Effective? Understanding the Suitability for Pixel-Level Classification Using Multispectral Imagery [23.464350453312584]
非常に大きなディープラーニングモデルであるファンデーションモデルは、様々な言語やビジョンタスクにおいて印象的なパフォーマンスを示してきた。
ファンデーションモデルは、常に異なるリモートセンシングタスクに適した選択肢であり、いつ、いつ、いつ、そうでないか?
本研究の目的は,画素レベルの分類のための基礎モデルの現状と適合性を理解することである。
論文 参考訳(メタデータ) (2024-04-17T23:30:48Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - A Critical Look at the Current Usage of Foundation Model for Dense
Recognition Task [26.938332354370814]
膨大なモダリティデータに基づいて訓練された大規模なモデルは、通常基礎モデルと呼ばれ、多くの分野において顕著な達成を達成する。
これらの基盤モデルが他の下流タスクに適用できるかどうかはまだ不明である。
論文 参考訳(メタデータ) (2023-07-06T08:57:53Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Rethinking Bias Mitigation: Fairer Architectures Make for Fairer Face
Recognition [107.58227666024791]
顔認識システムは、法執行を含む安全クリティカルなアプリケーションに広くデプロイされている。
彼らは、性別や人種など、様々な社会的デデノグラフィー次元に偏見を示す。
バイアス軽減に関するこれまでの研究は、主にトレーニングデータの事前処理に重点を置いていた。
論文 参考訳(メタデータ) (2022-10-18T15:46:05Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。