論文の概要: Towards Zero-Shot Differential Morphing Attack Detection with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.15332v1
- Date: Wed, 21 May 2025 10:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.433367
- Title: Towards Zero-Shot Differential Morphing Attack Detection with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルを用いたゼロショット差分型攻撃検出に向けて
- Authors: Ria Shekhawat, Hailin Li, Raghavendra Ramachandra, Sushma Venkatesh,
- Abstract要約: 本研究は, 差動モーフィング攻撃検出(D-MAD)における多モード大言語モデル (LLM) の導入を紹介する。
我々の知る限りでは、実バイオメトリックデータを用いてマルチモーダルLLMをD-MADに採用するのはこれが初めてである。
CoT(Chain-of-Thought)ベースのプロンプトを設計し、回答の失敗率を低減し、意思決定の背後にある推論を強化する。
- 参考スコア(独自算出の注目度): 8.128063939332408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging the power of multimodal large language models (LLMs) offers a promising approach to enhancing the accuracy and interpretability of morphing attack detection (MAD), especially in real-world biometric applications. This work introduces the use of LLMs for differential morphing attack detection (D-MAD). To the best of our knowledge, this is the first study to employ multimodal LLMs to D-MAD using real biometric data. To effectively utilize these models, we design Chain-of-Thought (CoT)-based prompts to reduce failure-to-answer rates and enhance the reasoning behind decisions. Our contributions include: (1) the first application of multimodal LLMs for D-MAD using real data subjects, (2) CoT-based prompt engineering to improve response reliability and explainability, (3) comprehensive qualitative and quantitative benchmarking of LLM performance using data from 54 individuals captured in passport enrollment scenarios, and (4) comparative analysis of two multimodal LLMs: ChatGPT-4o and Gemini providing insights into their morphing attack detection accuracy and decision transparency. Experimental results show that ChatGPT-4o outperforms Gemini in detection accuracy, especially against GAN-based morphs, though both models struggle under challenging conditions. While Gemini offers more consistent explanations, ChatGPT-4o is more resilient but prone to a higher failure-to-answer rate.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(LLM)のパワーを活用することで、特に現実世界のバイオメトリックスアプリケーションにおいて、モーフィング攻撃検出(MAD)の精度と解釈可能性を高めるための有望なアプローチを提供する。
本研究は, ディファレンシャルモーフィング攻撃検出(D-MAD)におけるLLMの使用を紹介する。
我々の知る限りでは、実バイオメトリックデータを用いてマルチモーダルLLMをD-MADに採用するのはこれが初めてである。
これらのモデルを効果的に活用するために、我々はChain-of-Thought(CoT)ベースのプロンプトを設計し、回答の失敗率を低減し、意思決定の背後にある推論を強化する。
本研究は,(1)実データを用いたD-MAD用マルチモーダルLLMの最初の応用,(2)CoTベースのプロンプトエンジニアリングによる応答信頼性と説明性の向上,(3)パスポート登録シナリオで取得した54人のデータを用いたLCMパフォーマンスの総合的質的・定量的ベンチマーク,(4)2つのマルチモーダルLLMの比較分析であるChatGPT-4oとGeminiを比較し,攻撃検出精度と判定透明性について考察した。
実験結果から,ChatGPT-4oは検出精度においてジェミニよりも優れており,特にGANに基づく形態に対して,両モデルとも困難な条件下では困難であることがわかった。
Geminiはより一貫性のある説明を提供するが、ChatGPT-4oはより弾力性があるが、より高い解答率をもたらす。
関連論文リスト
- ChatGPT Encounters Morphing Attack Detection: Zero-Shot MAD with Multi-Modal Large Language Models and General Vision Models [13.21801650767302]
顔認識システム(FRS)は、顔認識攻撃に対してますます脆弱になり、Morphing Detection(MAD)アルゴリズムの開発が進められている。
MADの重要な課題は、見つからないデータに対する限定的な一般化性と、実用的なアプリケーション環境において説明責任が欠如していることである。
本研究は,Large Language Models (LLMs) を利用したゼロショット学習を用いたMADの新しいアプローチを探求する。
論文 参考訳(メタデータ) (2025-03-13T22:53:24Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Wrong-of-Thought: An Integrated Reasoning Framework with Multi-Perspective Verification and Wrong Information [14.071887353084126]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の性能向上に欠かせない技術となっている。
2つのコアモジュールを含むWrong-of-Thought (WoT)を提案する。
8つの一般的なデータセットと5つのLLMの実験は、WoTが以前のベースラインをすべて越えていることを示している。
論文 参考訳(メタデータ) (2024-10-06T12:27:21Z) - Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である
従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。
固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-02T15:01:55Z) - Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection [34.40206965758026]
時系列異常検出(TSAD)は、標準トレンドから逸脱する非定型パターンを特定することで、様々な産業において重要な役割を果たす。
従来のTSADモデルは、しばしばディープラーニングに依存しており、広範なトレーニングデータを必要とし、ブラックボックスとして動作する。
LLMADは,Large Language Models (LLMs) を用いて,高精度かつ解釈可能なTSAD結果を提供する新しいTSAD手法である。
論文 参考訳(メタデータ) (2024-05-24T09:07:02Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。