論文の概要: SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2402.04178v1
- Date: Tue, 6 Feb 2024 17:31:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:55:57.214512
- Title: SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルを用いた顔のスポーフィングと偽造検出のための評価ベンチマーク
- Authors: Yichen Shi, Yuhao Gao, Yingxin Lai, Hongyang Wang, Jun Feng, Lei He,
Jun Wan, Changsheng Chen, Zitong Yu, Xiaochun Cao
- Abstract要約: フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
- 参考スコア(独自算出の注目度): 63.946809247201905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated remarkable
problem-solving capabilities in various vision fields (e.g., generic object
recognition and grounding) based on strong visual semantic representation and
language reasoning ability. However, whether MLLMs are sensitive to subtle
visual spoof/forged clues and how they perform in the domain of face attack
detection (e.g., face spoofing and forgery detection) is still unexplored. In
this paper, we introduce a new benchmark, namely SHIELD, to evaluate the
ability of MLLMs on face spoofing and forgery detection. Specifically, we
design true/false and multiple-choice questions to evaluate multimodal face
data in these two face security tasks. For the face anti-spoofing task, we
evaluate three different modalities (i.e., RGB, infrared, depth) under four
types of presentation attacks (i.e., print attack, replay attack, rigid mask,
paper mask). For the face forgery detection task, we evaluate GAN-based and
diffusion-based data with both visual and acoustic modalities. Each question is
subjected to both zero-shot and few-shot tests under standard and chain of
thought (COT) settings. The results indicate that MLLMs hold substantial
potential in the face security domain, offering advantages over traditional
specific models in terms of interpretability, multimodal flexible reasoning,
and joint face spoof and forgery detection. Additionally, we develop a novel
Multi-Attribute Chain of Thought (MA-COT) paradigm for describing and judging
various task-specific and task-irrelevant attributes of face images, which
provides rich task-related knowledge for subtle spoof/forged clue mining.
Extensive experiments in separate face anti-spoofing, separate face forgery
detection, and joint detection tasks demonstrate the effectiveness of the
proposed MA-COT. The project is available at
https$:$//github.com/laiyingxin2/SHIELD
- Abstract(参考訳): マルチモーダル大言語モデル(mllm)は、強力な視覚意味表現と言語推論能力に基づいて、様々な視覚分野(汎用オブジェクト認識や接地など)において驚くべき問題解決能力を示している。
しかし、mllmが微妙な視覚的なspoof/forgedの手がかりに敏感であるかどうか、顔攻撃検出(例えば、顔のspoofingや偽造検出)の分野でどのように機能するかはまだ未解明である。
本稿では,顔スプーフィングと偽造検出におけるMLLMの能力を評価するために,SHELDという新しいベンチマークを導入する。
具体的には,この2つの顔認証タスクにおいて,マルチモーダル顔データを評価するために,true/falseとmulti-choiceの質問を設計する。
4種類の提示攻撃(印刷攻撃,リプレイ攻撃,剛体マスク,紙マスク)において,顔の偽造防止作業において,RGB,赤外線,奥行きの3つのモードを評価する。
顔偽造検出タスクでは,視覚と音響の両モードでGANと拡散に基づくデータを評価する。
各質問は、標準思考(COT)設定下でのゼロショットテストと少数ショットテストの両方を対象とする。
その結果,MLLMは顔のセキュリティ領域において大きな可能性を秘めており,解釈可能性,マルチモーダルフレキシブル推論,関節面のスプーフや偽造検出といった点で,従来の特定モデルよりも有利であることがわかった。
さらに,顔画像の様々なタスク特化属性とタスク非関連属性を記述・判断するためのMA-COT(Multi-Attribute Chain of Thought)パラダイムを開発した。
顔の偽造防止, 顔の偽造検出, 関節検出作業における広範囲な実験により, 提案したMA-COTの有効性が示された。
https$:$/github.com/laiyingxin2/SHIELDで入手できる。
関連論文リスト
- Exploring Decision-based Black-box Attacks on Face Forgery Detection [53.181920529225906]
顔の偽造生成技術は鮮明な顔を生み出し、セキュリティとプライバシーに対する世間の懸念を高めている。
顔偽造検出は偽の顔の識別に成功しているが、最近の研究では顔偽造検出は敵の例に対して非常に脆弱であることが示されている。
論文 参考訳(メタデータ) (2023-10-18T14:49:54Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Masked Language Model Based Textual Adversarial Example Detection [14.734863175424797]
アドリアックは、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。
本稿では,MLMD(Masked Model-based Detection)という新たなテキスト対逆例検出手法を提案する。
論文 参考訳(メタデータ) (2023-04-18T06:52:14Z) - Multispectral Imaging for Differential Face Morphing Attack Detection: A
Preliminary Study [7.681417534211941]
本稿では,D-MAD(D-MAD)のためのマルチスペクトルフレームワークを提案する。
提案したマルチスペクトルD-MADフレームワークは、7つの異なるスペクトルバンドを取得してモーフィング攻撃を検出するために、信頼できるキャプチャとしてキャプチャされたマルチスペクトル画像を導入する。
論文 参考訳(メタデータ) (2023-04-07T07:03:00Z) - Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues [61.37306431455152]
我々は,HFC-MFFD (hierarchical Forgery for Multi-modality Face Forgery Detection) を提案する。
HFC-MFFDは、マルチモーダルシナリオにおけるフォージェリー認証を強化するために、堅牢なパッチベースのハイブリッド表現を学習する。
クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層的な顔偽造を提案する。
論文 参考訳(メタデータ) (2022-12-30T10:54:29Z) - MAFER: a Multi-resolution Approach to Facial Expression Recognition [9.878384185493623]
そこで本稿では,表情認識に携わる深層学習モデルを訓練するための2段階学習手法であるMAFERを提案する。
MAFERの関連する特徴は、タスクに依存しない、すなわち、他の客観的関連技術に補完的に使用できることである。
論文 参考訳(メタデータ) (2021-05-06T07:26:58Z) - Face Anti-Spoofing with Human Material Perception [76.4844593082362]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。
我々は、顔の反偽造を物質認識問題として言い換え、それを古典的な人間の物質知覚と組み合わせる。
本稿では,本質的な素材に基づくパターンをキャプチャ可能なバイラテラル畳み込みネットワーク(BCN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T18:25:53Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。