Fugu-MT 論文翻訳(概要): CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing

論文の概要: CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing

arxiv url: http://arxiv.org/abs/2403.14333v1
Date: Thu, 21 Mar 2024 11:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 14:28:30.334736
Title: CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing
Title（参考訳）: CFPL-FAS: 一般化可能な顔アンチスプーフィングのためのクラスフリープロンプト学習
Authors: Ajian Liu, Shuai Xue, Jianwen Gan, Jun Wan, Yanyan Liang, Jiankang Deng, Sergio Escalera, Zhen Lei,
Abstract要約: ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
参考スコア（独自算出の注目度）: 66.6712018832575
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Domain generalization (DG) based Face Anti-Spoofing (FAS) aims to improve the model's performance on unseen domains. Existing methods either rely on domain labels to align domain-invariant feature spaces, or disentangle generalizable features from the whole sample, which inevitably lead to the distortion of semantic feature structures and achieve limited generalization. In this work, we make use of large-scale VLMs like CLIP and leverage the textual feature to dynamically adjust the classifier's weights for exploring generalizable visual features. Specifically, we propose a novel Class Free Prompt Learning (CFPL) paradigm for DG FAS, which utilizes two lightweight transformers, namely Content Q-Former (CQF) and Style Q-Former (SQF), to learn the different semantic prompts conditioned on content and style features by using a set of learnable query vectors, respectively. Thus, the generalizable prompt can be learned by two improvements: (1) A Prompt-Text Matched (PTM) supervision is introduced to ensure CQF learns visual representation that is most informative of the content description. (2) A Diversified Style Prompt (DSP) technology is proposed to diversify the learning of style prompts by mixing feature statistics between instance-specific styles. Finally, the learned text features modulate visual features to generalization through the designed Prompt Modulation (PM). Extensive experiments show that the CFPL is effective and outperforms the state-of-the-art methods on several cross-domain datasets.
Abstract（参考訳）: ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。既存の手法は、ドメイン不変な特徴空間を整列するためにドメインラベルに依存するか、サンプル全体から切り離された一般化可能な特徴を持つかのいずれかであり、必然的に意味的特徴構造の歪みを招き、限られた一般化を達成する。本研究では,CLIPのような大規模VLMを活用し,テキスト機能を利用して分類器の重みを動的に調整し,一般化可能な視覚的特徴を探索する。具体的には、コンテンツQ-Former(CQF)とStyle Q-Former(SQF)という2つの軽量トランスフォーマーを利用して、学習可能なクエリベクトルのセットを用いて、コンテンツとスタイルの特徴に規定された異なるセマンティックプロンプトを学習するDG FASのためのCFPL(Class Free Prompt Learning)パラダイムを提案する。そこで,1) プロンプトテキストマッチング(PTM) の監督を導入し,CQF がコンテンツ記述の最も有益な視覚表現を確実に学習できるようにする。 2) DSP(Diversified Style Prompt)技術は,インスタンス固有のスタイル間で特徴統計を混合することにより,スタイルプロンプトの学習を多様化するために提案される。最後に、学習したテキスト機能は、設計したPrompt Modulation (PM)を通して、視覚的特徴を一般化に変調する。大規模な実験により、CFPLは複数のクロスドメインデータセット上で最先端の手法より優れていることが示されている。

関連論文リスト

SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文参考訳（メタデータ） (2025-04-24T09:31:08Z)
Domain Generalization for Face Anti-spoofing via Content-aware Composite Prompt Engineering [38.82454563769887]
顔アンチ・スプーフィング(FAS)におけるドメイン一般化は、微妙なスプーフィング手がかりに対するドメイン固有の信号の重大な干渉である。本稿では、インスタンスワイド複合プロンプトを生成するCCPE(Content-Aware Composite Prompt Engineering)を提案する。 CCPEは複数のクロスドメイン実験で有効性を確認し,SOTA(State-of-the-art)の結果を得た。
論文参考訳（メタデータ） (2025-04-06T13:00:41Z)
LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文参考訳（メタデータ） (2025-03-31T04:47:05Z)
CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification [42.429118831928214]
CLIP(Contrastive Language- Image Pretraining)は,大規模画像テキストペア上で事前訓練された視覚言語モデルである。 CLIPのタスクへの適応は、識別能力を高めるためによりきめ細かい機能を学ぶことと、モデルの一般化能力を改善するためによりドメイン不変の機能を学ぶ、という2つの大きな課題を示す。
論文参考訳（メタデータ） (2025-01-27T14:08:25Z)
In the Era of Prompt Learning with Vision-Language Models [1.060608983034705]
ドメイン一般化のためのドメインに依存しない新しい学習戦略であるtextscStyLIP を紹介する。 StyLIPは、スタイルプロジェクタを使用してドメイン固有のプロンプトトークンを学習することで、CLIPsビジョンエンコーダの視覚スタイルとコンテンツを切り離す。また,CLIPの凍結視覚バックボーンを利用した非教師なし領域適応(DA)のためのAD-CLIPを提案する。
論文参考訳（メタデータ） (2024-11-07T17:31:21Z)
Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。 UniFSSは最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-07-16T08:41:01Z)
HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文参考訳（メタデータ） (2024-01-18T04:23:21Z)
Text Descriptions are Compressive and Invariant Representations for Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文参考訳（メタデータ） (2023-07-10T03:06:45Z)
StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based Domain Generalization [26.08922351077744]
StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
論文参考訳（メタデータ） (2023-02-18T07:36:16Z)
Generalized Few-Shot Continual Learning with Contrastive Mixture of Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文参考訳（メタデータ） (2023-02-12T15:18:14Z)
Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。我々の手法は既存の手法より一貫して大幅に優れています。
論文参考訳（メタデータ） (2022-12-08T11:23:24Z)
AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文参考訳（メタデータ） (2020-02-24T10:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。