論文の概要: Scalable Face Security Vision Foundation Model for Deepfake, Diffusion, and Spoofing Detection
- arxiv url: http://arxiv.org/abs/2510.10663v1
- Date: Sun, 12 Oct 2025 15:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.055215
- Title: Scalable Face Security Vision Foundation Model for Deepfake, Diffusion, and Spoofing Detection
- Title(参考訳): ディープフェイク・拡散・発散検出のためのスケーラブル顔セキュリティビジョン基礎モデル
- Authors: Gaojian Wang, Feng Lin, Tong Wu, Zhisheng Yan, Kui Ren,
- Abstract要約: まず,実顔画像の基本表現を学習するためのFS-VFMを提案する。
マスク画像モデリング(MIM)とインスタンス識別(ID)を相乗化する3つの学習目標,すなわち3Cを導入する。
我々は,MIMとIDをシームレスに結合し,その基盤となる局所-グローバル対応を確立する,信頼性の高い自己蒸留機構を提案する。
11の公開ベンチマークの実験では、FS-VFMは多様なVFMよりも一貫して一般化されている。
- 参考スコア(独自算出の注目度): 23.328598687742712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With abundant, unlabeled real faces, how can we learn robust and transferable facial representations to boost generalization across various face security tasks? We make the first attempt and propose FS-VFM, a scalable self-supervised pre-training framework, to learn fundamental representations of real face images. We introduce three learning objectives, namely 3C, that synergize masked image modeling (MIM) and instance discrimination (ID), empowering FS-VFM to encode both local patterns and global semantics of real faces. Specifically, we formulate various facial masking strategies for MIM and devise a simple yet effective CRFR-P masking, which explicitly prompts the model to pursue meaningful intra-region Consistency and challenging inter-region Coherency. We present a reliable self-distillation mechanism that seamlessly couples MIM with ID to establish underlying local-to-global Correspondence. After pre-training, vanilla vision transformers (ViTs) serve as universal Vision Foundation Models for downstream Face Security tasks: cross-dataset deepfake detection, cross-domain face anti-spoofing, and unseen diffusion facial forensics. To efficiently transfer the pre-trained FS-VFM, we further propose FS-Adapter, a lightweight plug-and-play bottleneck atop the frozen backbone with a novel real-anchor contrastive objective. Extensive experiments on 11 public benchmarks demonstrate that our FS-VFM consistently generalizes better than diverse VFMs, spanning natural and facial domains, fully, weakly, and self-supervised paradigms, small, base, and large ViT scales, and even outperforms SOTA task-specific methods, while FS-Adapter offers an excellent efficiency-performance trade-off. The code and models are available on https://fsfm-3c.github.io/fsvfm.html.
- Abstract(参考訳): 豊富でラベルのない現実の顔を使って、さまざまな顔セキュリティタスクの一般化を促進するために、堅牢で移動可能な顔表現をどうやって学べばいいのか?
本稿では,実顔画像の基本的な表現を学習するための,スケーラブルな自己教師付き事前学習フレームワークFS-VFMを提案する。
マスク画像モデリング(MIM)とインスタンス識別(ID)を相乗化する3つの学習目標,すなわち3Cを導入し,実顔の局所パターンと大域的意味論の両方をFS-VFMにエンコードする。
具体的には、MIMのための様々な顔マスキング戦略を定式化し、単純で効果的なCRFR-Pマスキングを考案する。
我々は,MIMとIDをシームレスに結合し,基礎となる局所-グローバル対応を確立する,信頼性の高い自己蒸留機構を提案する。
事前トレーニング後、バニラ・ビジョン・トランスフォーマー(ViT)は、下流のFace Securityタスクのためのユニバーサルビジョン・ファンデーション・モデルとして機能する。
FS-VFMを効率よく転送するために,凍結したバックボーン上の軽量なプラグアンドプレイボトルネックであるFS-Adapterを提案する。
11の公開ベンチマークに関する大規模な実験では、FS-VFMは、自然と顔のドメインにまたがる様々なVFMよりも一貫して、完全に、弱く、自己監督的なパラダイム、小さい、ベース、そして大きなViTスケール、さらにはSOTAタスク固有のメソッドよりも優れたパフォーマンスのトレードオフを提供する一方で、FS-Adapterは優れた効率性能のトレードオフを提供する。
コードとモデルはhttps://fsfm-3c.github.io/fsvfm.htmlで公開されている。
関連論文リスト
- FaceShield: Explainable Face Anti-Spoofing with Multimodal Large Language Models [51.858371492494456]
対面防止(FAS)は、提示攻撃から顔認識システムを保護するために不可欠である。
現在、FASタスク用に特別に設計された、普遍的で包括的なMLLMとデータセットは存在しない。
FASのためのMLLMであるFaceShieldと、それに対応する事前学習および教師付き微調整データセットを提案する。
命令データセット、プロトコル、コードはまもなくリリースされます。
論文 参考訳(メタデータ) (2025-05-14T14:10:43Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - FSFM: A Generalizable Face Security Foundation Model via Self-Supervised Facial Representation Learning [27.34249750803211]
実顔画像の基本表現を学習するための自己教師付き事前学習フレームワークを提案する。
我々のモデルは、教師付き事前学習、視覚的および顔的自己指導型学習技術よりも優れており、タスク特化SOTA法よりも優れています。
論文 参考訳(メタデータ) (2024-12-16T17:58:45Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - FaceCat: Enhancing Face Recognition Security with a Unified Diffusion Model [30.0523477092216]
対面防止(FAS)と対向検出(FAD)は、顔認識システムの安全性を確保するための重要な技術であると考えられている。
本研究の目的は,1) 顔下特徴表現と2) トレーニングデータの不足という2つの主要な障害を突破することで,この目標を達成することである。
論文 参考訳(メタデータ) (2024-04-14T09:01:26Z) - FLIP: Cross-domain Face Anti-spoofing with Language Guidance [19.957293190322332]
Face Anti-Spoofing (FAS) またはプレゼンテーションアタック検出は、顔認識システムにおいて不可欠な要素である。
最近の視覚変換器(ViT)モデルはFASタスクに有効であることが示されている。
本稿では、自然言語の助けを借りて視覚表現を基盤とした、堅牢なドメイン間FASのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-28T17:53:20Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。