論文の概要: Domain Generalization for Face Anti-spoofing via Content-aware Composite Prompt Engineering
- arxiv url: http://arxiv.org/abs/2504.04470v1
- Date: Sun, 06 Apr 2025 13:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:27.456494
- Title: Domain Generalization for Face Anti-spoofing via Content-aware Composite Prompt Engineering
- Title(参考訳): コンテンツ対応複合プロンプト工学による顔偽造のドメイン一般化
- Authors: Jiabao Guo, Ajian Liu, Yunfeng Diao, Jin Zhang, Hui Ma, Bo Zhao, Richang Hong, Meng Wang,
- Abstract要約: 顔アンチ・スプーフィング(FAS)におけるドメイン一般化は、微妙なスプーフィング手がかりに対するドメイン固有の信号の重大な干渉である。
本稿では、インスタンスワイド複合プロンプトを生成するCCPE(Content-Aware Composite Prompt Engineering)を提案する。
CCPEは複数のクロスドメイン実験で有効性を確認し,SOTA(State-of-the-art)の結果を得た。
- 参考スコア(独自算出の注目度): 38.82454563769887
- License:
- Abstract: The challenge of Domain Generalization (DG) in Face Anti-Spoofing (FAS) is the significant interference of domain-specific signals on subtle spoofing clues. Recently, some CLIP-based algorithms have been developed to alleviate this interference by adjusting the weights of visual classifiers. However, our analysis of this class-wise prompt engineering suffers from two shortcomings for DG FAS: (1) The categories of facial categories, such as real or spoof, have no semantics for the CLIP model, making it difficult to learn accurate category descriptions. (2) A single form of prompt cannot portray the various types of spoofing. In this work, instead of class-wise prompts, we propose a novel Content-aware Composite Prompt Engineering (CCPE) that generates instance-wise composite prompts, including both fixed template and learnable prompts. Specifically, our CCPE constructs content-aware prompts from two branches: (1) Inherent content prompt explicitly benefits from abundant transferred knowledge from the instruction-based Large Language Model (LLM). (2) Learnable content prompts implicitly extract the most informative visual content via Q-Former. Moreover, we design a Cross-Modal Guidance Module (CGM) that dynamically adjusts unimodal features for fusion to achieve better generalized FAS. Finally, our CCPE has been validated for its effectiveness in multiple cross-domain experiments and achieves state-of-the-art (SOTA) results.
- Abstract(参考訳): Face Anti-Spoofing (FAS) におけるDomain Generalization (DG) の課題は、微妙なスプーフの手がかりに対するドメイン固有の信号の重大な干渉である。
近年,視覚分類器の重みを調整することで,この干渉を軽減するためにCLIPベースのアルゴリズムが開発されている。
しかし,本研究は,DG FASの2つの欠点に悩まされている。(1) リアルやスプーフのような顔カテゴリーのカテゴリーは,CLIPモデルに意味論を持たず,正確なカテゴリ記述の習得が困難である。
2)一形態のプロンプトは様々な種類の偽造を表現できない。
本研究では、クラスワイズプロンプトの代わりに、固定テンプレートと学習可能なプロンプトを含む、インスタンスワイズ複合プロンプトを生成する、CCPE(Content-Aware Composite Prompt Engineering)を提案する。
具体的には、CCPEは、2つの分野からコンテンツ認識プロンプトを構築している。
2)学習可能なコンテンツはQ-Formerを介して暗黙的に最も情報性の高いビジュアルコンテンツを抽出する。
さらに,より一般化されたFASを実現するために,融合のための一様特徴を動的に調整するクロスモーダル誘導モジュール (CGM) を設計する。
最後に,複数のクロスドメイン実験においてCCPEの有効性が検証され,SOTA(State-of-the-art)の結果が得られた。
関連論文リスト
- Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification [8.139529179222844]
Category-Prompt Refined Feature Learning (CPRFL) は長尺多ラベル画像分類の新しい手法である。
CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、カテゴリ固有の視覚表現を分離する。
2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-15T12:51:57Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Dual-Modal Prompting for Sketch-Based Image Retrieval [76.12076969949062]
本稿では、適応的なプロンプト戦略を設計したデュアルモーダルCLIP(DP-CLIP)ネットワークを提案する。
ターゲットカテゴリとテキストカテゴリラベル内に一連の画像を用いて,カテゴリ適応型プロンプトトークンとチャネルスケールをそれぞれ構成する。
我々のDP-CLIPは、Sketchyデータセット上のAcc.@1において、最先端の微細ゼロショット法を7.3%向上させる。
論文 参考訳(メタデータ) (2024-04-29T13:43:49Z) - Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain Generalization [12.126495847808803]
本稿では、視覚言語モデルCLIPのセマンティックな長所を生かしたODG-CLIPを紹介する。
我々はODGを、既知のカテゴリと新しいカテゴリの両方を包含する多クラス分類課題として概念化している。
我々は,CLIPの視覚的埋め込みの忠実度を高めるために,プロンプト空間から派生したクラス識別的知識で画像を注入する。
論文 参考訳(メタデータ) (2024-03-31T15:03:31Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - COMMA: Co-Articulated Multi-Modal Learning [39.778958624066185]
本稿では,従来の手法の制約に対処するため,COMMA(Co-Articulated Multi-Modal Learning)を提案する。
本手法は,両枝の表現アライメントを高めるプロンプトを生成するために,両枝からのプロンプトを考察する。
提案手法は,新しいクラスへの一般化,新しいターゲットデータセット,目に見えないドメインシフトの3つのタスクにまたがって評価する。
論文 参考訳(メタデータ) (2023-12-30T15:47:36Z) - ProS: Prompting-to-simulate Generalized knowledge for Universal
Cross-Domain Retrieval [123.51277978744677]
textbfPrompting-to-textbfSimulate (ProS) を提案し,Universal Cross-Domain Retrieval (UCDR) にプロンプトチューニングを適用する。
ProSは、Content-Aware Dynamic Prompts (CaDP)をシミュレートする2段階のプロセスを採用している。
本手法は過剰なパラメータを伴わずに新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T14:39:11Z) - Semantic Feature Integration network for Fine-grained Visual
Classification [5.182627302449368]
本稿では,これらの課題に対処するためにセマンティック・フィーチャー・インテグレーション・ネットワーク(SFI-Net)を提案する。
不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。
論文 参考訳(メタデータ) (2023-02-13T07:32:25Z) - Generalized Few-Shot Continual Learning with Contrastive Mixture of
Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。
一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。
このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文 参考訳(メタデータ) (2023-02-12T15:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。