論文の概要: MADPromptS: Unlocking Zero-Shot Morphing Attack Detection with Multiple Prompt Aggregation
- arxiv url: http://arxiv.org/abs/2508.08939v1
- Date: Tue, 12 Aug 2025 13:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.44024
- Title: MADPromptS: Unlocking Zero-Shot Morphing Attack Detection with Multiple Prompt Aggregation
- Title(参考訳): MADPromptS:複数プロンプトアグリゲーションによるゼロショットモーフィング検出のアンロック
- Authors: Eduarda Caldeira, Fadi Boutros, Naser Damer,
- Abstract要約: 顔モフティング攻撃検出(MAD)は、顔認識のセキュリティにおいて重要な課題である。
この研究は、追加のトレーニングや微調整なしでCLIPを活用することによって、MADに対する純粋なゼロショットアプローチを探求する。
多様なプロンプトの埋め込みを集約することにより、モデルの内部表現とMADタスクとの整合性が向上する。
- 参考スコア(独自算出の注目度): 8.045296450065019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face Morphing Attack Detection (MAD) is a critical challenge in face recognition security, where attackers can fool systems by interpolating the identity information of two or more individuals into a single face image, resulting in samples that can be verified as belonging to multiple identities by face recognition systems. While multimodal foundation models (FMs) like CLIP offer strong zero-shot capabilities by jointly modeling images and text, most prior works on FMs for biometric recognition have relied on fine-tuning for specific downstream tasks, neglecting their potential for direct, generalizable deployment. This work explores a pure zero-shot approach to MAD by leveraging CLIP without any additional training or fine-tuning, focusing instead on the design and aggregation of multiple textual prompts per class. By aggregating the embeddings of diverse prompts, we better align the model's internal representations with the MAD task, capturing richer and more varied cues indicative of bona-fide or attack samples. Our results show that prompt aggregation substantially improves zero-shot detection performance, demonstrating the effectiveness of exploiting foundation models' built-in multimodal knowledge through efficient prompt engineering.
- Abstract(参考訳): 顔形態攻撃検出(英: Face Morphing Attack Detection、MAD)は、顔認証のセキュリティにおいて重要な課題であり、攻撃者は2人以上の人物の身元情報を単一の顔画像に補間することでシステムを騙すことができる。
CLIPのようなマルチモーダルファウンデーションモデル(FM)は、画像とテキストを共同でモデル化することで、強力なゼロショット機能を提供するが、バイオメトリック認識のためのFMに関する以前の研究のほとんどは、特定の下流タスクの微調整に依存しており、直接、一般化可能なデプロイメントの可能性を無視している。
この研究は、クラスごとに複数のテキストプロンプトの設計と集約に焦点を当て、追加のトレーニングや微調整をせずにCLIPを活用することによって、MADに対する純粋なゼロショットアプローチを探求する。
多様なプロンプトの埋め込みを集約することで、モデルの内部表現をMADタスクと整合させ、より豊かで多様なキューをボナフィドやアタックのサンプルとして捉えます。
提案手法は, ファウンデーションモデルの組込みマルチモーダル知識を効果的に活用することで, ゼロショット検出性能を大幅に向上することを示す。
関連論文リスト
- Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates [37.65554922794508]
偽テキストのサンプルを生成するために、MAC(Multimodal Adversarial Compositionality)を導入する。
我々は、サンプルワイド攻撃の成功率とグループワイドエントロピーに基づく多様性を両立させて評価した。
Llama-3.1-8Bのようなより小さな言語モデルを用いて、我々の手法は構成上の脆弱性を明らかにする上で優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-28T23:45:55Z) - Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection [84.21257150497254]
本稿では,3次元マスク提示攻撃検出のための視覚言語モデルの強力な一般化能力を検討するための,知識に基づく新しいプロンプト学習フレームワークを提案する。
実験により,提案手法は最先端のシナリオ内およびクロスシナリオ検出性能を実現することを示す。
論文 参考訳(メタデータ) (2025-05-06T15:09:23Z) - ChatGPT Encounters Morphing Attack Detection: Zero-Shot MAD with Multi-Modal Large Language Models and General Vision Models [13.21801650767302]
顔認識システム(FRS)は、顔認識攻撃に対してますます脆弱になり、Morphing Detection(MAD)アルゴリズムの開発が進められている。
MADの重要な課題は、見つからないデータに対する限定的な一般化性と、実用的なアプリケーション環境において説明責任が欠如していることである。
本研究は,Large Language Models (LLMs) を利用したゼロショット学習を用いたMADの新しいアプローチを探求する。
論文 参考訳(メタデータ) (2025-03-13T22:53:24Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [61.8876114116716]
MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。
しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。
フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - An Efficient Ensemble Explainable AI (XAI) Approach for Morphed Face
Detection [1.2599533416395763]
深層学習予測モデル(EfficientNet-Grad1)のより包括的な視覚的説明を提供するために,Ensemble XAIという新しい視覚的説明手法を提案する。
実験は、Face Research Lab London Set、Wide Multi-Channel Presentation Attack (WMCA)、Makeup induced Face Spoofing (MIFS)の3つの公開データセットで実施された。
論文 参考訳(メタデータ) (2023-04-23T13:43:06Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。