論文の概要: FRoundation: Are Foundation Models Ready for Face Recognition?
- arxiv url: http://arxiv.org/abs/2410.23831v3
- Date: Fri, 07 Feb 2025 09:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:53:34.913472
- Title: FRoundation: Are Foundation Models Ready for Face Recognition?
- Title(参考訳): FRoundation: ファウンデーションモデルは顔認識に対応しているのか?
- Authors: Tahar Chettaoui, Naser Damer, Fadi Boutros,
- Abstract要約: ファウンデーションモデルが特定の顔認識領域(FR)に適しているかを検討する。
合成データを含むデータ可用性の異なるレベルにまたがって、これらのモデルのFRへの適用を提案、実証する。
この結果から, 汎用性にもかかわらず, 事前学習された基礎モデルは, この課題に特化して訓練された類似アーキテクチャと比較すると, FRにおいて性能が劣る傾向が示唆された。
- 参考スコア(独自算出の注目度): 8.045296450065019
- License:
- Abstract: Foundation models are predominantly trained in an unsupervised or self-supervised manner on highly diverse and large-scale datasets, making them broadly applicable to various downstream tasks. In this work, we investigate for the first time whether such models are suitable for the specific domain of face recognition (FR). We further propose and demonstrate the adaptation of these models for FR across different levels of data availability, including synthetic data. Extensive experiments are conducted on multiple foundation models and datasets of varying scales for training and fine-tuning, with evaluation on a wide range of benchmarks. Our results indicate that, despite their versatility, pre-trained foundation models tend to underperform in FR in comparison with similar architectures trained specifically for this task. However, fine-tuning foundation models yields promising results, often surpassing models trained from scratch, particularly when training data is limited. For example, after fine-tuning only on 1K identities, DINOv2 ViT-S achieved average verification accuracy on LFW, CALFW, CPLFW, CFP-FP, and AgeDB30 benchmarks of 87.10%, compared to 64.70% achieved by the same model and without fine-tuning. While training the same model architecture, ViT-S, from scratch on 1k identities reached 69.96%. With access to larger-scale FR training datasets, these performances reach 96.03% and 95.59% for the DINOv2 and CLIP ViT-L models, respectively. In comparison to the ViT-based architectures trained from scratch for FR, fine-tuned same architectures of foundation models achieve similar performance while requiring lower training computational costs and not relying on the assumption of extensive data availability. We further demonstrated the use of synthetic face data, showing improved performances over both pre-trained foundation and ViT models.
- Abstract(参考訳): ファンデーションモデルは、非常に多種多様で大規模なデータセットに基づいて、主に教師なしまたは自己監督的な方法で訓練されており、様々な下流タスクに広く適用できる。
本研究では,このようなモデルが特定の顔認識領域(FR)に適しているかどうかを初めて検討する。
さらに、合成データを含むデータ可用性の異なるレベルにまたがって、これらのモデルのFRへの適用を提案、実証する。
複数の基礎モデルと様々なスケールのデータセットを用いて、トレーニングと微調整を行い、幅広いベンチマークで評価する。
この結果から, 汎用性にもかかわらず, 事前学習された基礎モデルは, この課題に特化して訓練された類似アーキテクチャと比較すると, FRにおいて性能が劣る傾向が示唆された。
しかし、微調整ファンデーションモデルは有望な結果をもたらし、特にトレーニングデータに制限がある場合、スクラッチからトレーニングされたモデルを上回ることがしばしばある。
例えば、DINOv2 ViT-Sは1KのIDのみを微調整した後、LFW, CALFW, CPLFW, CFP-FP, AgeDB30ベンチマークの精度を87.10%向上させた。
同じモデルアーキテクチャであるViT-Sを1kのIDでスクラッチからトレーニングしている間、69.96%に達した。
大規模FRトレーニングデータセットへのアクセスにより、これらのパフォーマンスはそれぞれDINOv2とCLIP ViT-Lモデルの96.03%と95.59%に達する。
FRのスクラッチからトレーニングされたViTベースのアーキテクチャと比較して、基礎モデルの微調整された同一アーキテクチャは、より低いトレーニング計算コストを必要としながら、広範なデータ可用性の仮定に依存しない、同様のパフォーマンスを実現する。
さらに, 合成顔データの利用を実証し, 事前学習した基礎モデルとViTモデルの両方の性能向上を示した。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - A Lightweight Measure of Classification Difficulty from Application Dataset Characteristics [4.220363193932374]
効率的なコサイン類似度に基づく分類困難度尺度Sを提案する。
データセットのクラス数とクラス内およびクラス間の類似度メトリクスから計算される。
この手法を実践者が、繰り返しトレーニングやテストによって、6倍から29倍の速度で効率の良いモデルを選択するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-04-09T03:27:09Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - A study on the impact of pre-trained model on Just-In-Time defect
prediction [10.205110163570502]
RoBERTaJIT、CodeBERTJIT、BARTJIT、PLBARTJIT、GPT2JIT、CodeGPTJITの6つのモデルを構築します。
本稿では,コミットコードとコミットメッセージを入力として使用する際のモデルの性能と,トレーニング効率とモデル分布の関係について検討する。
論文 参考訳(メタデータ) (2023-09-05T15:34:22Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Imputing Knowledge Tracing Data with Subject-Based Training via LSTM
Variational Autoencoders Frameworks [6.24828623162058]
我々は,行数分割の代わりに,学生IDによるデータ分割とインプットを行うために,主観的学習手法を採用した。
我々は既存の2つの深い生成フレームワーク、すなわち変分オートエンコーダ(VAE)と変分オートエンコーダ(LVAE)を活用している。
LSTM-VAE と LSTM-LVAE から生成したデータにより,元のモデルの性能を約50%向上できることを示す。
論文 参考訳(メタデータ) (2023-02-24T21:56:03Z) - No One Representation to Rule Them All: Overlapping Features of Training
Methods [12.58238785151714]
ハイパフォーマンスモデルは、トレーニング方法論に関係なく、同様の予測をする傾向があります。
近年の研究では、大規模なコントラスト学習など、非常に異なるトレーニングテクニックが、競争的に高い精度で実現されている。
これらのモデルはデータの一般化に特化しており、より高いアンサンブル性能をもたらす。
論文 参考訳(メタデータ) (2021-10-20T21:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。