論文の概要: Empowering Morphing Attack Detection using Interpretable Image-Text Foundation Model
- arxiv url: http://arxiv.org/abs/2508.10110v1
- Date: Wed, 13 Aug 2025 18:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.07879
- Title: Empowering Morphing Attack Detection using Interpretable Image-Text Foundation Model
- Title(参考訳): 解釈可能な画像-テキスト基礎モデルを用いたモーフィング攻撃検出
- Authors: Sushrut Patwardhan, Raghavendra Ramachandra, Sushma Venkatesh,
- Abstract要約: 本稿では,モーフィング攻撃検出のテキスト記述を提供するマルチモーダル学習手法を提案する。
まず,提案フレームワークのゼロショット評価により,一般化可能なモーフィング攻撃検出だけでなく,最も関連性の高いテキストスニペットを予測できることを示す。
- 参考スコア(独自算出の注目度): 3.013675405024281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Morphing attack detection has become an essential component of face recognition systems for ensuring a reliable verification scenario. In this paper, we present a multimodal learning approach that can provide a textual description of morphing attack detection. We first show that zero-shot evaluation of the proposed framework using Contrastive Language-Image Pretraining (CLIP) can yield not only generalizable morphing attack detection, but also predict the most relevant text snippet. We present an extensive analysis of ten different textual prompts that include both short and long textual prompts. These prompts are engineered by considering the human understandable textual snippet. Extensive experiments were performed on a face morphing dataset that was developed using a publicly available face biometric dataset. We present an evaluation of SOTA pre-trained neural networks together with the proposed framework in the zero-shot evaluation of five different morphing generation techniques that are captured in three different mediums.
- Abstract(参考訳): モーフィング攻撃検出は、信頼性の高い検証シナリオを保証するために、顔認識システムにおいて不可欠な要素となっている。
本稿では,モーフィング攻撃検出のテキスト記述を提供するマルチモーダル学習手法を提案する。
提案手法をCLIP (Contrastive Language- Image Pretraining) を用いてゼロショット評価することにより, 一般化可能なモーフィング攻撃検出だけでなく, 最も関連性の高いテキストスニペットを予測できることを示す。
短文と長文の両方を含む10種類のテキストプロンプトを広範囲に分析する。
これらのプロンプトは、人間の理解可能なテキストスニペットを考慮して設計される。
一般公開された顔バイオメトリックデータセットを用いて、顔形態形成データセットに対して大規模な実験を行った。
本稿では,SOTA事前学習ニューラルネットワークと提案フレームワークを併用して,3つの異なる媒体で取得した5つの異なるモーフィング生成手法のゼロショット評価を行う。
関連論文リスト
- Generalized Single-Image-Based Morphing Attack Detection Using Deep Representations from Vision Transformer [13.21801650767302]
顔改ざん攻撃は、国境管理やパスポート発行のユースケースで運用される顔認識システム(FRS)に深刻な脅威をもたらしている。
視覚変換器 (ViT) アーキテクチャから符号化を学習し, 一般化された単一画像ベースMAD (S-MAD) アルゴリズムを提案する。
一般公開されたFRGC顔データセットを用いて顔変形データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2025-01-16T20:09:19Z) - Revisiting Tampered Scene Text Detection in the Era of Generative AI [33.38946428507517]
提案手法は,視覚的および見えない偽造型の両方を識別する能力について,法医学モデルの評価を行う。
本稿では,画像中の選択したテキストのテクスチャを微調整し,これらの領域を特定するためにモデルを訓練する,新しい効果的なトレーニングパラダイムを提案する。
また,テキストの特徴を識別することで,オープンセットの一般化を改善するフレームワークであるDAFを提案する。
論文 参考訳(メタデータ) (2024-07-31T08:17:23Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。
提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文 参考訳(メタデータ) (2022-11-23T14:40:51Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。
最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。
第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文 参考訳(メタデータ) (2022-01-21T06:16:04Z) - Asymmetric Modality Translation For Face Presentation Attack Detection [55.09300842243827]
顔提示攻撃検出(PAD)は、悪意のあるユーザによって顔認識システムが偽造されるのを防ぐための重要な手段である。
両モードシナリオにおける非対称なモダリティ変換に基づく新しいフレームワークを提案する。
本手法は,異なる評価プロトコル下での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-18T08:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。