論文の概要: Multi View Slot Attention Using Paraphrased Texts For Face Anti-Spoofing
- arxiv url: http://arxiv.org/abs/2509.06336v1
- Date: Mon, 08 Sep 2025 04:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.977455
- Title: Multi View Slot Attention Using Paraphrased Texts For Face Anti-Spoofing
- Title(参考訳): パラフレーズテキストを用いた顔アンチ・スプーフィングのための多視点スロットアテンション
- Authors: Jeongmin Yu, Susang Kim, Kisu Lee, Taekyoung Kwon, Won-Yong Shin, Ha Young Kim,
- Abstract要約: Face Anti-Spoofing (FAS) メソッドは、CLIPのような視覚言語モデルを用いることで、ドメイン間のパフォーマンスを著しく向上させた。
我々は、MVS(Multi-View Slot attention)とMTPA(Multi-Text Patch Alignment)という2つの重要なモジュールを組み込んだ新しいフレームワークであるMVP-FASを提案する。
MVP-FASは、クロスドメインデータセットにおける従来の最先端メソッドよりも優れた一般化性能を実現する。
- 参考スコア(独自算出の注目度): 14.181918679227067
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent face anti-spoofing (FAS) methods have shown remarkable cross-domain performance by employing vision-language models like CLIP. However, existing CLIP-based FAS models do not fully exploit CLIP's patch embedding tokens, failing to detect critical spoofing clues. Moreover, these models rely on a single text prompt per class (e.g., 'live' or 'fake'), which limits generalization. To address these issues, we propose MVP-FAS, a novel framework incorporating two key modules: Multi-View Slot attention (MVS) and Multi-Text Patch Alignment (MTPA). Both modules utilize multiple paraphrased texts to generate generalized features and reduce dependence on domain-specific text. MVS extracts local detailed spatial features and global context from patch embeddings by leveraging diverse texts with multiple perspectives. MTPA aligns patches with multiple text representations to improve semantic robustness. Extensive experiments demonstrate that MVP-FAS achieves superior generalization performance, outperforming previous state-of-the-art methods on cross-domain datasets. Code: https://github.com/Elune001/MVP-FAS.
- Abstract(参考訳): 最近のフェース・アンチ・スプーフィング(FAS)法は、CLIPのような視覚言語モデルを用いて、ドメイン間性能を著しく向上させてきた。
しかし、既存のCLIPベースのFASモデルは、CLIPのパッチ埋め込みトークンを完全に活用せず、重要なスプーフィングヒントを検出できない。
さらに、これらのモデルはクラスごとに1つのテキストプロンプト(例えば、'live'や'fake')に依存し、一般化を制限する。
これらの問題に対処するために,MVS(Multi-View Slot attention)とMTPA(Multi-Text Patch Alignment)という2つの重要なモジュールを組み込んだ新しいフレームワークであるMVP-FASを提案する。
どちらのモジュールも複数のパラフレーズテキストを使用して一般化された特徴を生成し、ドメイン固有のテキストへの依存を減らす。
MVSは、複数の視点で多様なテキストを活用することにより、パッチ埋め込みから局所的な詳細な空間特徴とグローバルコンテキストを抽出する。
MTPAは、セマンティックロバスト性を改善するために、パッチを複数のテキスト表現と整列する。
広範な実験により、MVP-FASは、クロスドメインデータセットにおける従来の最先端メソッドよりも優れた一般化性能を実現することが示されている。
コード:https://github.com/Elune001/MVP-FAS。
関連論文リスト
- Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - Prototype-Aware Multimodal Alignment for Open-Vocabulary Visual Grounding [11.244257545057508]
Prototype-Aware Multimodal Learning (PAML) は、視覚的・言語的モダリティの不完全整合、クロスモーダルな特徴融合の欠如、意味的プロトタイプ情報の有効利用に対処する革新的なフレームワークである。
我々のフレームワークは,オープン語彙シーンにおける最先端の成果を達成しつつ,標準的な場面での競争性能を示す。
論文 参考訳(メタデータ) (2025-09-08T02:27:10Z) - Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。