論文の概要: Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning
- arxiv url: http://arxiv.org/abs/2505.13327v2
- Date: Tue, 20 May 2025 02:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.468445
- Title: Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning
- Title(参考訳): 階層型プロンプトチューニングによる一元攻撃検出のベンチマーク
- Authors: Ajian Liu, Haocheng Yuan, Xiao Guo, Hui Ma, Wanyi Zhuang, Changtao Miao, Yan Hong, Chuanbiao Song, Jun Lan, Qi Chu, Tao Gong, Yanyan Liang, Weiqiang Wang, Jun Wan, Xiaoming Liu, Zhen Lei,
- Abstract要約: 提示攻撃検出と顔偽造検出は、それぞれ物理メディアベースの提示攻撃とデジタル編集ベースのDeepFakeから顔データを保護するように設計されている。
これら2つのモデルの個別のトレーニングは、未知の攻撃やデプロイ環境への脆弱性を生じさせる。
本稿では,視覚言語モデルに基づく階層型プロンプトチューニングフレームワーク (HiPTune) を提案する。
- 参考スコア(独自算出の注目度): 58.16354555208417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Presentation Attack Detection and Face Forgery Detection are designed to protect face data from physical media-based Presentation Attacks and digital editing-based DeepFakes respectively. But separate training of these two models makes them vulnerable to unknown attacks and burdens deployment environments. The lack of a Unified Face Attack Detection model to handle both types of attacks is mainly due to two factors. First, there's a lack of adequate benchmarks for models to explore. Existing UAD datasets have limited attack types and samples, restricting the model's ability to address advanced threats. To address this, we propose UniAttackDataPlus (UniAttackData+), the most extensive and sophisticated collection of forgery techniques to date. It includes 2,875 identities and their 54 kinds of falsified samples, totaling 697,347 videos. Second, there's a lack of a reliable classification criterion. Current methods try to find an arbitrary criterion within the same semantic space, which fails when encountering diverse attacks. So, we present a novel Visual-Language Model-based Hierarchical Prompt Tuning Framework (HiPTune) that adaptively explores multiple classification criteria from different semantic spaces. We build a Visual Prompt Tree to explore various classification rules hierarchically. Then, by adaptively pruning the prompts, the model can select the most suitable prompts to guide the encoder to extract discriminative features at different levels in a coarse-to-fine way. Finally, to help the model understand the classification criteria in visual space, we propose a Dynamically Prompt Integration module to project the visual prompts to the text encoder for more accurate semantics. Experiments on 12 datasets have shown the potential to inspire further innovations in the UAD field.
- Abstract(参考訳): 提示攻撃検出と顔偽造検出は、それぞれ物理メディアベースの提示攻撃とデジタル編集ベースのDeepFakeから顔データを保護するように設計されている。
しかし、これら2つのモデルを個別にトレーニングすることで、未知の攻撃やデプロイ環境への脆弱性が生じる。
どちらの攻撃も扱える統一顔攻撃検出モデルがないのは、主に2つの要因があるためである。
まず、モデルを調べるのに十分なベンチマークが欠如しています。
既存のUADデータセットは、攻撃タイプとサンプルに制限があり、高度な脅威に対処するモデルの能力を制限する。
この問題を解決するために、これまでで最も広く洗練された偽造技法のコレクションであるUniAttackDataPlus(UniAttackData+)を提案する。
2,875件の身元と54種類の偽造サンプルがあり、合計697,347本のビデオがある。
第二に、信頼できる分類基準がないことです。
現在のメソッドは同じセマンティック空間内で任意の基準を見つけようとするが、これは多様な攻撃に遭遇したときに失敗する。
そこで我々は,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワーク(HiPTune)を提案する。
私たちは、様々な分類規則を階層的に探求するために、Visual Prompt Treeを構築します。
次に,各プロンプトを適応的に刈り取ることで,エンコーダを誘導する最も適切なプロンプトを選択し,各レベルの識別特徴を粗い方法で抽出する。
最後に、視覚空間における分類基準を理解するために、より正確な意味論のためにテキストエンコーダに視覚的プロンプトを投影するDynamically Prompt Integrationモジュールを提案する。
12のデータセットの実験は、UAD分野におけるさらなるイノベーションを刺激する可能性を示している。
関連論文リスト
- Adaptation Method for Misinformation Identification [8.581136866856255]
マルチモーダルフェイクニュース検出のためのアクティブドメイン適応(ADA)フレームワークであるADOSEを提案する。
ADOSEは、検出性能を改善するために、ターゲットサンプルの小さなサブセットを積極的に注釈付けする。
ADOSEは既存のADAメソッドを2.72%$sim$ 14.02%で上回り、我々のモデルの優位性を示している。
論文 参考訳(メタデータ) (2025-04-19T04:18:32Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - UNICAD: A Unified Approach for Attack Detection, Noise Reduction and Novel Class Identification [5.570086931219838]
UNICADは、適応的なソリューションを提供するために様々な技術を統合する新しいフレームワークとして提案されている。
対象画像分類において、UNICADは正確な画像分類を達成し、未知のクラスを検出し、敵攻撃から回復する。
CIFAR-10データセットで行った実験は、UNICADが対向緩和および見知らぬクラス分類において有効であり、従来のモデルよりも優れていたことを示している。
論文 参考訳(メタデータ) (2024-06-24T10:10:03Z) - Unified Physical-Digital Face Attack Detection [66.14645299430157]
顔認識(FR)システムは物理的(印刷写真)とデジタル(ディープフェイク)攻撃に悩まされることがある。
以前の関連する作業では、両方の状況が同時に考慮されることはめったにありません。
視覚言語モデル(VLM)に基づく一元攻撃検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-31T09:38:44Z) - Hyperbolic Face Anti-Spoofing [21.981129022417306]
双曲空間におけるよりリッチな階層的および差別的なスプーフィングキューを学習することを提案する。
単調なFAS学習では、特徴埋め込みはポアンカーボールに投影され、双対対対数回帰層は分類のためにカスケードされる。
双曲空間における消失勾配問題を緩和するために,双曲モデルのトレーニング安定性を高めるために,新しい特徴クリッピング法を提案する。
論文 参考訳(メタデータ) (2023-08-17T17:18:21Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。