論文の概要: SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2402.04178v1
- Date: Tue, 6 Feb 2024 17:31:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:55:57.214512
- Title: SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルを用いた顔のスポーフィングと偽造検出のための評価ベンチマーク
- Authors: Yichen Shi, Yuhao Gao, Yingxin Lai, Hongyang Wang, Jun Feng, Lei He,
Jun Wan, Changsheng Chen, Zitong Yu, Xiaochun Cao
- Abstract要約: フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
- 参考スコア(独自算出の注目度): 63.946809247201905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated remarkable
problem-solving capabilities in various vision fields (e.g., generic object
recognition and grounding) based on strong visual semantic representation and
language reasoning ability. However, whether MLLMs are sensitive to subtle
visual spoof/forged clues and how they perform in the domain of face attack
detection (e.g., face spoofing and forgery detection) is still unexplored. In
this paper, we introduce a new benchmark, namely SHIELD, to evaluate the
ability of MLLMs on face spoofing and forgery detection. Specifically, we
design true/false and multiple-choice questions to evaluate multimodal face
data in these two face security tasks. For the face anti-spoofing task, we
evaluate three different modalities (i.e., RGB, infrared, depth) under four
types of presentation attacks (i.e., print attack, replay attack, rigid mask,
paper mask). For the face forgery detection task, we evaluate GAN-based and
diffusion-based data with both visual and acoustic modalities. Each question is
subjected to both zero-shot and few-shot tests under standard and chain of
thought (COT) settings. The results indicate that MLLMs hold substantial
potential in the face security domain, offering advantages over traditional
specific models in terms of interpretability, multimodal flexible reasoning,
and joint face spoof and forgery detection. Additionally, we develop a novel
Multi-Attribute Chain of Thought (MA-COT) paradigm for describing and judging
various task-specific and task-irrelevant attributes of face images, which
provides rich task-related knowledge for subtle spoof/forged clue mining.
Extensive experiments in separate face anti-spoofing, separate face forgery
detection, and joint detection tasks demonstrate the effectiveness of the
proposed MA-COT. The project is available at
https$:$//github.com/laiyingxin2/SHIELD
- Abstract(参考訳): マルチモーダル大言語モデル(mllm)は、強力な視覚意味表現と言語推論能力に基づいて、様々な視覚分野(汎用オブジェクト認識や接地など)において驚くべき問題解決能力を示している。
しかし、mllmが微妙な視覚的なspoof/forgedの手がかりに敏感であるかどうか、顔攻撃検出(例えば、顔のspoofingや偽造検出)の分野でどのように機能するかはまだ未解明である。
本稿では,顔スプーフィングと偽造検出におけるMLLMの能力を評価するために,SHELDという新しいベンチマークを導入する。
具体的には,この2つの顔認証タスクにおいて,マルチモーダル顔データを評価するために,true/falseとmulti-choiceの質問を設計する。
4種類の提示攻撃(印刷攻撃,リプレイ攻撃,剛体マスク,紙マスク)において,顔の偽造防止作業において,RGB,赤外線,奥行きの3つのモードを評価する。
顔偽造検出タスクでは,視覚と音響の両モードでGANと拡散に基づくデータを評価する。
各質問は、標準思考(COT)設定下でのゼロショットテストと少数ショットテストの両方を対象とする。
その結果,MLLMは顔のセキュリティ領域において大きな可能性を秘めており,解釈可能性,マルチモーダルフレキシブル推論,関節面のスプーフや偽造検出といった点で,従来の特定モデルよりも有利であることがわかった。
さらに,顔画像の様々なタスク特化属性とタスク非関連属性を記述・判断するためのMA-COT(Multi-Attribute Chain of Thought)パラダイムを開発した。
顔の偽造防止, 顔の偽造検出, 関節検出作業における広範囲な実験により, 提案したMA-COTの有効性が示された。
https$:$/github.com/laiyingxin2/SHIELDで入手できる。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant [59.2438504610849]
FFAA: Face Forgery Analysis Assistant(MLLM)とMIDS(Multi-Awer Intelligent Decision System)について紹介する。
提案手法は,ユーザフレンドリで説明可能な結果を提供するだけでなく,従来の手法に比べて精度と堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-19T15:15:20Z) - COMICS: End-to-end Bi-grained Contrastive Learning for Multi-face Forgery Detection [56.7599217711363]
顔偽造認識法は一度に1つの顔しか処理できない。
ほとんどの顔偽造認識法は一度に1つの顔しか処理できない。
マルチフェイスフォージェリ検出のためのエンドツーエンドフレームワークであるCOMICSを提案する。
論文 参考訳(メタデータ) (2023-08-03T03:37:13Z) - Masked Language Model Based Textual Adversarial Example Detection [14.734863175424797]
アドリアックは、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。
本稿では,MLMD(Masked Model-based Detection)という新たなテキスト対逆例検出手法を提案する。
論文 参考訳(メタデータ) (2023-04-18T06:52:14Z) - MAFER: a Multi-resolution Approach to Facial Expression Recognition [9.878384185493623]
そこで本稿では,表情認識に携わる深層学習モデルを訓練するための2段階学習手法であるMAFERを提案する。
MAFERの関連する特徴は、タスクに依存しない、すなわち、他の客観的関連技術に補完的に使用できることである。
論文 参考訳(メタデータ) (2021-05-06T07:26:58Z) - Face Anti-Spoofing with Human Material Perception [76.4844593082362]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。
我々は、顔の反偽造を物質認識問題として言い換え、それを古典的な人間の物質知覚と組み合わせる。
本稿では,本質的な素材に基づくパターンをキャプチャ可能なバイラテラル畳み込みネットワーク(BCN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T18:25:53Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。