Fugu-MT 論文翻訳(概要): SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models

論文の概要: SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2402.04178v2
Date: Sat, 19 Apr 2025 05:46:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 16:13:47.132591
Title: SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルを用いた顔のスポーフィングと偽造検出のための評価ベンチマーク
Authors: Yichen Shi, Yuhao Gao, Yingxin Lai, Hongyang Wang, Jun Feng, Lei He, Jun Wan, Changsheng Chen, Zitong Yu, Xiaochun Cao,
Abstract要約: MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
参考スコア（独自算出の注目度）: 61.8876114116716
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) have demonstrated strong capabilities in vision-related tasks, capitalizing on their visual semantic comprehension and reasoning capabilities. However, their ability to detect subtle visual spoofing and forgery clues in face attack detection tasks remains underexplored. In this paper, we introduce a benchmark, SHIELD, to evaluate MLLMs for face spoofing and forgery detection. Specifically, we design true/false and multiple-choice questions to assess MLLM performance on multimodal face data across two tasks. For the face anti-spoofing task, we evaluate three modalities (i.e., RGB, infrared, and depth) under six attack types. For the face forgery detection task, we evaluate GAN-based and diffusion-based data, incorporating visual and acoustic modalities. We conduct zero-shot and few-shot evaluations in standard and chain of thought (COT) settings. Additionally, we propose a novel multi-attribute chain of thought (MA-COT) paradigm for describing and judging various task-specific and task-irrelevant attributes of face images. The findings of this study demonstrate that MLLMs exhibit strong potential for addressing the challenges associated with the security of facial recognition technology applications.
Abstract（参考訳）: MLLM(Multimodal large language model)は視覚関連タスクにおいて、視覚的意味理解と推論能力に乗じて強力な機能を示す。しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。本稿では,顔スプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを提案する。具体的には,2つのタスクにわたるマルチモーダル顔データ上でのMLLM性能を評価するために,真・偽・複数選択の質問を設計する。顔の偽造防止タスクでは,6種類の攻撃タイプで3つのモード(RGB,赤外,深度)を評価する。顔偽造検出タスクでは,視覚的・音響的モダリティを取り入れたGANと拡散に基づくデータの評価を行う。標準思考(COT)設定においてゼロショットと少数ショットの評価を行う。さらに,顔画像のタスク特化属性とタスク非関連属性を記述・判断するための,MA-COT(Multi-Atribute chain of Think)パラダイムを提案する。本研究は,MLLMが顔認識技術のセキュリティにかかわる課題に対処する可能性を示すものであることを示す。

関連論文リスト

PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文参考訳（メタデータ） (2025-12-22T12:49:12Z)
Hidden in Plain Sight: Evaluation of the Deception Detection Capabilities of LLMs in Multimodal Settings [14.065907685322097]
本稿では,Large Language Model (LLM) とLarge Multimodal Model (LMM) の自動偽造検出機能について,包括的に評価する。実生活トライアル面接(RLTD)、対人的シナリオ(MU3D)、詐欺的レビュー(OpSpam)の3つの異なるデータセットを用いて、オープンソースおよび商用LLMの性能を評価する。以上の結果から,LMMはクロスモーダルな手法を十分に活用するのに苦戦しているのに対し,微調整のLLMはテキスト偽造検出タスクにおいて最先端のパフォーマンスを実現することが示唆された。
論文参考訳（メタデータ） (2025-06-11T06:12:50Z)
Reasoning Multimodal Large Language Model: Data Contamination and Dynamic Evaluation [9.434966074326056]
MLLM(Multimodal Large Language Models)は、視覚ベースのベンチマーク性能を示すが、真の一般化を隠蔽するデータ汚染リスクへの懸念が増大している。静的ベンチマークを超えてMLLMの一般化を厳格に評価する新しい動的評価フレームワークを提案する。シミュレーションテストデータ(極端汚染)の微調整はタスク固有の性能を大幅に向上させるが、全体的な一般化には悪影響を及ぼすことを示す。
論文参考訳（メタデータ） (2025-06-08T15:52:38Z)
Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。 Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-30T17:59:53Z)
FaceShield: Explainable Face Anti-Spoofing with Multimodal Large Language Models [51.858371492494456]
対面防止(FAS)は、提示攻撃から顔認識システムを保護するために不可欠である。現在、FASタスク用に特別に設計された、普遍的で包括的なMLLMとデータセットは存在しない。 FASのためのMLLMであるFaceShieldと、それに対応する事前学習および教師付き微調整データセットを提案する。命令データセット、プロトコル、コードはまもなくリリースされます。
論文参考訳（メタデータ） (2025-05-14T14:10:43Z)
FaceInsight: A Multimodal Large Language Model for Face Perception [69.06084304620026]
本研究では,顔の詳細な情報を提供する多目的顔認識大言語モデル (MLLM) を提案する。本手法では, 顔情報間の不確かさと決定論的関係の両方をモデル化するために, 顔知識の視覚的・テキスト的アライメントを導入する。 3つの顔認識タスクに対する総合的な実験と分析により、FaceInsightはMLLMと比較した9つの性能を一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-04-22T06:31:57Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文参考訳（メタデータ） (2025-02-28T04:15:36Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文参考訳（メタデータ） (2024-10-01T08:16:40Z)
DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection [15.933013428603152]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な能力を示した。不正で虐待的な言語を識別・緩和する上で,LLMの性能を評価するためのベンチマークスイートを提案する。
論文参考訳（メタデータ） (2024-09-09T21:12:03Z)
Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文参考訳（メタデータ） (2024-09-04T01:38:37Z)
FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant [59.2438504610849]
FFAA: Face Forgery Analysis Assistant(MLLM)とMIDS(Multi-Awer Intelligent Decision System)について紹介する。提案手法は,ユーザフレンドリで説明可能な結果を提供するだけでなく,従来の手法に比べて精度と堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-08-19T15:15:20Z)
COMICS: End-to-end Bi-grained Contrastive Learning for Multi-face Forgery Detection [56.7599217711363]
顔偽造認識法は一度に1つの顔しか処理できない。ほとんどの顔偽造認識法は一度に1つの顔しか処理できない。マルチフェイスフォージェリ検出のためのエンドツーエンドフレームワークであるCOMICSを提案する。
論文参考訳（メタデータ） (2023-08-03T03:37:13Z)
Masked Language Model Based Textual Adversarial Example Detection [14.734863175424797]
アドリアックは、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。本稿では,MLMD(Masked Model-based Detection)という新たなテキスト対逆例検出手法を提案する。
論文参考訳（メタデータ） (2023-04-18T06:52:14Z)
MAFER: a Multi-resolution Approach to Facial Expression Recognition [9.878384185493623]
そこで本稿では,表情認識に携わる深層学習モデルを訓練するための2段階学習手法であるMAFERを提案する。 MAFERの関連する特徴は、タスクに依存しない、すなわち、他の客観的関連技術に補完的に使用できることである。
論文参考訳（メタデータ） (2021-05-06T07:26:58Z)
Face Anti-Spoofing with Human Material Perception [76.4844593082362]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。我々は、顔の反偽造を物質認識問題として言い換え、それを古典的な人間の物質知覚と組み合わせる。本稿では,本質的な素材に基づくパターンをキャプチャ可能なバイラテラル畳み込みネットワーク(BCN)を提案する。
論文参考訳（メタデータ） (2020-07-04T18:25:53Z)
Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。 2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文参考訳（メタデータ） (2020-03-18T06:11:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。