論文の概要: ChatGPT Encounters Morphing Attack Detection: Zero-Shot MAD with Multi-Modal Large Language Models and General Vision Models
- arxiv url: http://arxiv.org/abs/2503.10937v1
- Date: Thu, 13 Mar 2025 22:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:05:01.810874
- Title: ChatGPT Encounters Morphing Attack Detection: Zero-Shot MAD with Multi-Modal Large Language Models and General Vision Models
- Title(参考訳): マルチモーダル大言語モデルと一般ビジョンモデルを用いたゼロショットMAD
- Authors: Haoyu Zhang, Raghavendra Ramachandra, Kiran Raja, Christoph Busch,
- Abstract要約: 顔認識システム(FRS)は、顔認識攻撃に対してますます脆弱になり、Morphing Detection(MAD)アルゴリズムの開発が進められている。
MADの重要な課題は、見つからないデータに対する限定的な一般化性と、実用的なアプリケーション環境において説明責任が欠如していることである。
本研究は,Large Language Models (LLMs) を利用したゼロショット学習を用いたMADの新しいアプローチを探求する。
- 参考スコア(独自算出の注目度): 13.21801650767302
- License:
- Abstract: Face Recognition Systems (FRS) are increasingly vulnerable to face-morphing attacks, prompting the development of Morphing Attack Detection (MAD) algorithms. However, a key challenge in MAD lies in its limited generalizability to unseen data and its lack of explainability-critical for practical application environments such as enrolment stations and automated border control systems. Recognizing that most existing MAD algorithms rely on supervised learning paradigms, this work explores a novel approach to MAD using zero-shot learning leveraged on Large Language Models (LLMs). We propose two types of zero-shot MAD algorithms: one leveraging general vision models and the other utilizing multimodal LLMs. For general vision models, we address the MAD task by computing the mean support embedding of an independent support set without using morphed images. For the LLM-based approach, we employ the state-of-the-art GPT-4 Turbo API with carefully crafted prompts. To evaluate the feasibility of zero-shot MAD and the effectiveness of the proposed methods, we constructed a print-scan morph dataset featuring various unseen morphing algorithms, simulating challenging real-world application scenarios. Experimental results demonstrated notable detection accuracy, validating the applicability of zero-shot learning for MAD tasks. Additionally, our investigation into LLM-based MAD revealed that multimodal LLMs, such as ChatGPT, exhibit remarkable generalizability to untrained MAD tasks. Furthermore, they possess a unique ability to provide explanations and guidance, which can enhance transparency and usability for end-users in practical applications.
- Abstract(参考訳): 顔認識システム(FRS)は、顔認識攻撃に対してますます脆弱になり、Morphing Detection(MAD)アルゴリズムの開発が進められている。
しかし、MADの重要な課題は、未確認データに対する限定的な一般化性と、エンローメントステーションや自動境界制御システムのような実用的なアプリケーション環境において説明責任が欠如していることである。
既存のMADアルゴリズムの多くは教師付き学習パラダイムに依存していることを認識し、Large Language Models (LLMs) を利用したゼロショット学習を用いたMADの新しいアプローチを探求する。
我々は、一般的な視覚モデルを活用するゼロショットMADアルゴリズムと、マルチモーダルLLMを利用するゼロショットMADアルゴリズムの2つのタイプを提案する。
一般的な視覚モデルでは、モーフィングイメージを使わずに独立したサポートセットを組み込む平均サポートを計算し、MADタスクに対処する。
LLMベースのアプローチでは、最新技術である GPT-4 Turbo API を慎重に設計したプロンプトで採用する。
ゼロショットMADの実現可能性と提案手法の有効性を評価するため,様々な未知のモーフィングアルゴリズムを特徴とする印刷型モーフィングデータセットを構築し,実世界のアプリケーションシナリオをシミュレートした。
実験結果から,MADタスクにおけるゼロショット学習の適用性を検証し,顕著な検出精度を示した。
さらに,本研究により,ChatGPT などのマルチモーダル LLM が未訓練の MAD タスクに対して顕著な一般化性を示した。
さらに、それらには説明やガイダンスを提供するユニークな能力があり、実用的なアプリケーションにおけるエンドユーザの透明性とユーザビリティを高めることができる。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection [34.40206965758026]
時系列異常検出(TSAD)は、標準トレンドから逸脱する非定型パターンを特定することで、様々な産業において重要な役割を果たす。
従来のTSADモデルは、しばしばディープラーニングに依存しており、広範なトレーニングデータを必要とし、ブラックボックスとして動作する。
LLMADは,Large Language Models (LLMs) を用いて,高精度かつ解釈可能なTSAD結果を提供する新しいTSAD手法である。
論文 参考訳(メタデータ) (2024-05-24T09:07:02Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - DMAD: Dual Memory Bank for Real-World Anomaly Detection [90.97573828481832]
我々は、DMAD(Anomaly Detection)のための表現学習を強化したDual Memory Bankという新しいフレームワークを提案する。
DMADはデュアルメモリバンクを用いて特徴距離を計算し、正常パターンと異常パターンの間の特徴注意を計算している。
DMADをMVTec-ADおよびVisAデータセット上で評価した。
論文 参考訳(メタデータ) (2024-03-19T02:16:32Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language
Models [30.723122000372538]
AnomalyGPTはLarge Vision-Language Models (LVLM)に基づく新しいIADアプローチである
我々は、異常な画像をシミュレートし、各画像に対応するテキスト記述を生成することで、トレーニングデータを生成する。
AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-29T15:02:53Z) - Unsupervised Face Morphing Attack Detection via Self-paced Anomaly
Detection [8.981081097203088]
SPL-MAD(Self-paced Anomaly Detection)による全く教師なしのモーフィング攻撃検出ソリューションを提案する。
我々は、既存の大規模顔認識(FR)データセットと、畳み込みオートエンコーダの教師なしの性質を活用している。
実験の結果,提案したSPL-MADソリューションは広範囲の教師付きMADソリューションの全体的な性能より優れていた。
論文 参考訳(メタデータ) (2022-08-11T12:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。