論文の概要: Trade-offs in Cross-Domain Generalization of Foundation Model Fine-Tuned for Biometric Applications
- arxiv url: http://arxiv.org/abs/2509.14921v1
- Date: Thu, 18 Sep 2025 12:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.220921
- Title: Trade-offs in Cross-Domain Generalization of Foundation Model Fine-Tuned for Biometric Applications
- Title(参考訳): バイオメトリック応用のための基礎モデルファインチューニングのクロスドメイン一般化におけるトレードオフ
- Authors: Tahar Chettaoui, Naser Damer, Fadi Boutros,
- Abstract要約: CLIPのようなファンデーションモデルは、多様な視覚タスクにまたがる例外的なゼロショットと少数ショットの転送機能を示している。
しかし、高度に専門化された生体認証タスク、顔認識(FR)、モーフィングアタック検出(MAD)、プレゼンテーションアタック検出(PAD)は、過剰な特殊化に悩まされる可能性がある。
FR,MAD,PADに微調整されたCLIPの3つの事例を評価することで,これらのトレードオフを体系的に定量化する。
- 参考スコア(独自算出の注目度): 18.08946802592489
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models such as CLIP have demonstrated exceptional zero- and few-shot transfer capabilities across diverse vision tasks. However, when fine-tuned for highly specialized biometric tasks, face recognition (FR), morphing attack detection (MAD), and presentation attack detection (PAD), these models may suffer from over-specialization. Thus, they may lose one of their foundational strengths, cross-domain generalization. In this work, we systematically quantify these trade-offs by evaluating three instances of CLIP fine-tuned for FR, MAD, and PAD. We evaluate each adapted model as well as the original CLIP baseline on 14 general vision datasets under zero-shot and linear-probe protocols, alongside common FR, MAD, and PAD benchmarks. Our results indicate that fine-tuned models suffer from over-specialization, especially when fine-tuned for complex tasks of FR. Also, our results pointed out that task complexity and classification head design, multi-class (FR) vs. binary (MAD and PAD), correlate with the degree of catastrophic forgetting. The FRoundation model with the ViT-L backbone outperforms other approaches on the large-scale FR benchmark IJB-C, achieving an improvement of up to 58.52%. However, it experiences a substantial performance drop on ImageNetV2, reaching only 51.63% compared to 69.84% achieved by the baseline CLIP model. Moreover, the larger CLIP architecture consistently preserves more of the model's original generalization ability than the smaller variant, indicating that increased model capacity may help mitigate over-specialization.
- Abstract(参考訳): CLIPのようなファンデーションモデルは、多様な視覚タスクにまたがる例外的なゼロショットと少数ショットの転送機能を示している。
しかし、高度に専門化された生体認証タスク、顔認識(FR)、モーフィングアタック検出(MAD)、プレゼンテーションアタック検出(PAD)のために微調整された場合、これらのモデルは過剰な特殊化に悩まされる可能性がある。
したがって、それらは基礎的な強みの1つ、クロスドメインの一般化を失う可能性がある。
本研究では,FR,MAD,PADに微調整されたCLIPの3つの事例を評価することにより,これらのトレードオフを体系的に定量化する。
我々は、共通のFR、MAD、PADベンチマークとともに、ゼロショットおよびリニアプローブプロトコルの下で14の一般ビジョンデータセット上で、各適応モデルと元のCLIPベースラインを評価した。
以上の結果から,微調整モデルでは特にFRの複雑なタスクを微調整する場合に過度に特殊化が生じることが示唆された。
また,タスクの複雑性と分類ヘッド設計,マルチクラス(FR)対バイナリ(MADとPAD)は,破滅的忘れの程度と相関していることを示した。
ViT-Lのバックボーンを持つFRoundationモデルは、大規模FRベンチマークIJB-Cで他のアプローチよりも優れ、58.52%の改善を実現している。
しかし、ImageNetV2ではかなりのパフォーマンス低下を経験し、ベースラインのCLIPモデルで達成された69.84%に比べて51.63%にしか達していない。
さらに、より大きなCLIPアーキテクチャは、より小さな変種よりもモデルの本来の一般化能力を常に維持しており、モデル能力の増大が過度な一般化を緩和する可能性があることを示している。
関連論文リスト
- Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
本稿では,深部エンコーダ-浅部デコーダアーキテクチャに基づく簡易な一般化フレームワークを提案する。
これはトレーニング中の不均衡に起因することを示し、その削減のための新しい方法を提案する。
提案手法は,MS-COCOデータセット上で55.1のPQを実現する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations [19.800907485589402]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
論文 参考訳(メタデータ) (2024-03-12T01:47:17Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Mitigating Spurious Correlations in Multi-modal Models during
Fine-tuning [18.45898471459533]
モデル一般化を低下させたり、間違った理由でモデルが正しいことを導いたという豪華な相関は、現実世界のデプロイメントにおいて大きな堅牢性に関する懸念の1つです。
本稿では,特定の関心領域の微調整において,刺激的な相関に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-08T05:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。