論文の概要: InstructFLIP: Exploring Unified Vision-Language Model for Face Anti-spoofing
- arxiv url: http://arxiv.org/abs/2507.12060v2
- Date: Mon, 28 Jul 2025 08:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.971549
- Title: InstructFLIP: Exploring Unified Vision-Language Model for Face Anti-spoofing
- Title(参考訳): InstructFLIP:顔アンチスプーフィングのための統一視覚言語モデル探索
- Authors: Kun-Hsiang Lin, Yu-Wen Tseng, Kang-Yang Huang, Jhih-Ciang Wu, Wen-Huang Cheng,
- Abstract要約: Face Anti-Spoofing (FAS) は、多様な攻撃に耐えられる堅牢なシステムを構築することを目的としている。
まず、視覚入力の知覚を高めるために視覚言語モデル(VLM)を統合する。
第2の課題では、メタドメイン戦略を使用して、複数のドメインにまたがってうまく一般化される統一モデルを学びます。
- 参考スコア(独自算出の注目度): 12.977166938890976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face anti-spoofing (FAS) aims to construct a robust system that can withstand diverse attacks. While recent efforts have concentrated mainly on cross-domain generalization, two significant challenges persist: limited semantic understanding of attack types and training redundancy across domains. We address the first by integrating vision-language models (VLMs) to enhance the perception of visual input. For the second challenge, we employ a meta-domain strategy to learn a unified model that generalizes well across multiple domains. Our proposed InstructFLIP is a novel instruction-tuned framework that leverages VLMs to enhance generalization via textual guidance trained solely on a single domain. At its core, InstructFLIP explicitly decouples instructions into content and style components, where content-based instructions focus on the essential semantics of spoofing, and style-based instructions consider variations related to the environment and camera characteristics. Extensive experiments demonstrate the effectiveness of InstructFLIP by outperforming SOTA models in accuracy and substantially reducing training redundancy across diverse domains in FAS. Project website is available at https://kunkunlin1221.github.io/InstructFLIP.
- Abstract(参考訳): Face Anti-Spoofing (FAS) は、多様な攻撃に耐えられる堅牢なシステムを構築することを目的としている。
最近の取り組みは主にドメイン間の一般化に集中しているが、攻撃型のセマンティック理解の制限とドメイン間の冗長性のトレーニングという2つの大きな課題が続いている。
まず、視覚入力の知覚を高めるために視覚言語モデル(VLM)を統合する。
第2の課題では、メタドメイン戦略を使用して、複数のドメインにまたがってうまく一般化される統一モデルを学びます。
提案する InstructFLIP は,VLM を利用した新しい命令調整フレームワークである。
InstructFLIPの中核は、インストラクションをコンテンツとスタイルコンポーネントに明確に分離し、コンストラクションベースの命令は、スプーフィングの本質的な意味に重点を置いており、スタイルベースの命令は、環境とカメラの特性に関連するバリエーションを考慮に入れている。
広範囲な実験により,SOTAモデルよりも精度が高く,FASの様々な領域におけるトレーニング冗長性を著しく低減することで,InstructFLIPの有効性が実証された。
プロジェクトのWebサイトはhttps://kunlin1221.github.io/InstructFLIP.comで公開されている。
関連論文リスト
- Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Prompt-Driven Contrastive Learning for Transferable Adversarial Attacks [42.18755809782401]
PDCL-Attackと呼ばれる新しいトランスファー攻撃法を提案する。
テキストのセマンティック表現力を利用して効果的なプロンプト駆動型特徴ガイダンスを定式化する。
論文 参考訳(メタデータ) (2024-07-30T08:52:16Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Instruct2Attack: Language-Guided Semantic Adversarial Attacks [76.83548867066561]
Instruct2Attack (I2A) は、自由形式の言語命令に従って意味のある摂動を生成する言語誘導セマンティックアタックである。
我々は最先端の潜伏拡散モデルを用いて、逆拡散過程を逆ガイドし、入力画像とテキスト命令に条件付けされた逆潜伏符号を探索する。
I2Aは、強い敵の防御の下でも最先端のディープニューラルネットワークを破ることができることを示す。
論文 参考訳(メタデータ) (2023-11-27T05:35:49Z) - FLIP: Cross-domain Face Anti-spoofing with Language Guidance [19.957293190322332]
Face Anti-Spoofing (FAS) またはプレゼンテーションアタック検出は、顔認識システムにおいて不可欠な要素である。
最近の視覚変換器(ViT)モデルはFASタスクに有効であることが示されている。
本稿では、自然言語の助けを借りて視覚表現を基盤とした、堅牢なドメイン間FASのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-28T17:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。