論文の概要: Emergent Morphing Attack Detection in Open Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.15461v1
- Date: Tue, 17 Feb 2026 09:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.026326
- Title: Emergent Morphing Attack Detection in Open Multi-modal Large Language Models
- Title(参考訳): オープンマルチモーダル大言語モデルにおける創発型モーフィング検出
- Authors: Marija Ivanovska, Vitomir Štruc,
- Abstract要約: 顔変形攻撃は生体認証を脅かす。
ほとんどのモルフィング攻撃検知(MAD)システムは、タスク固有の訓練を必要とし、目に見えない攻撃タイプに悪影響を及ぼす。
単一画像MADのためのオープンソースのマルチモーダル大言語モデル(MLLM)の最初の体系的ゼロショット評価について述べる。
- 参考スコア(独自算出の注目度): 1.9620938589583623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face morphing attacks threaten biometric verification, yet most morphing attack detection (MAD) systems require task-specific training and generalize poorly to unseen attack types. Meanwhile, open-source multimodal large language models (MLLMs) have demonstrated strong visual-linguistic reasoning, but their potential in biometric forensics remains underexplored. In this paper, we present the first systematic zero-shot evaluation of open-source MLLMs for single-image MAD, using publicly available weights and a standardized, reproducible protocol. Across diverse morphing techniques, many MLLMs show non-trivial discriminative ability without any fine-tuning or domain adaptation, and LLaVA1.6-Mistral-7B achieves state-of-the-art performance, surpassing highly competitive task-specific MAD baselines by at least 23% in terms of equal error rate (EER). The results indicate that multimodal pretraining can implicitly encode fine-grained facial inconsistencies indicative of morphing artifacts, enabling zero-shot forensic sensitivity. Our findings position open-source MLLMs as reproducible, interpretable, and competitive foundations for biometric security and forensic image analysis. This emergent capability also highlights new opportunities to develop state-of-the-art MAD systems through targeted fine-tuning or lightweight adaptation, further improving accuracy and efficiency while preserving interpretability. To support future research, all code and evaluation protocols will be released upon publication.
- Abstract(参考訳): 顔モーフィング攻撃は生体認証を脅かすが、ほとんどのモルフィング攻撃検知(MAD)システムではタスク固有の訓練が必要であり、目に見えない攻撃タイプに悪影響を及ぼす。
一方、オープンソースのマルチモーダル大言語モデル (MLLM) は、強力な視覚言語学的推論を実証しているが、生体法医学におけるその可能性はまだ明らかにされていない。
本稿では,単一画像MADのためのオープンソースのMLLMを,公開重みと標準化された再現可能なプロトコルを用いて,初めて体系的にゼロショット評価する。
LLaVA1.6-Mistral-7Bは高い競争力を持つタスク固有のMADベースラインを少なくとも23%越え、最先端のパフォーマンスを達成する。
以上の結果から, マルチモーダルプレトレーニングは, 形態素の微細な顔の不整合を暗黙的に符号化し, ゼロショット法医学的感度を向上できることが示された。
本研究は,オープンソースMLLMを生体認証と法医学的画像解析のための再現性,解釈性,競争性のある基盤として位置づけた。
この創発的能力は、ターゲットの微調整や軽量化によって最先端のMADシステムを開発する新たな機会を強調し、解釈可能性を維持しながら精度と効率を向上する。
将来の研究をサポートするため、すべてのコードおよび評価プロトコルが公開される。
関連論文リスト
- Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Unlocking the Forgery Detection Potential of Vanilla MLLMs: A Novel Training-Free Pipeline [5.740204096484276]
画像偽造解析に適した訓練不要MLLMベースのパイプラインであるForeseeを提案する。
Foreseeはタイププライア駆動の戦略を採用し、コピー-ムーブ操作を処理するためにFlexible Feature Detectorモジュールを使用している。
提案手法は,より優れた局所化精度を実現し,より包括的なテキスト説明を提供する。
論文 参考訳(メタデータ) (2025-11-17T14:49:57Z) - MADPromptS: Unlocking Zero-Shot Morphing Attack Detection with Multiple Prompt Aggregation [8.045296450065019]
顔モフティング攻撃検出(MAD)は、顔認識のセキュリティにおいて重要な課題である。
この研究は、追加のトレーニングや微調整なしでCLIPを活用することによって、MADに対する純粋なゼロショットアプローチを探求する。
多様なプロンプトの埋め込みを集約することにより、モデルの内部表現とMADタスクとの整合性が向上する。
論文 参考訳(メタデータ) (2025-08-12T13:47:27Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Exploring Gradient-Guided Masked Language Model to Detect Textual Adversarial Attacks [50.53590930588431]
敵対的な例は 自然言語処理システムに深刻な脅威をもたらします
近年の研究では、対角的テキストは通常のテキストの多様体から逸脱していることが示唆されているが、マスク付き言語モデルは正規データの多様体を近似することができる。
まず、マスク付き言語モデリング(MLM)の目的のマスクアンマスク操作を活用するMLMD(Masked Language Model-based Detection)を導入する。
論文 参考訳(メタデータ) (2025-04-08T14:10:57Z) - ChatGPT Encounters Morphing Attack Detection: Zero-Shot MAD with Multi-Modal Large Language Models and General Vision Models [13.21801650767302]
顔認識システム(FRS)は、顔認識攻撃に対してますます脆弱になり、Morphing Detection(MAD)アルゴリズムの開発が進められている。
MADの重要な課題は、見つからないデータに対する限定的な一般化性と、実用的なアプリケーション環境において説明責任が欠如していることである。
本研究は,Large Language Models (LLMs) を利用したゼロショット学習を用いたMADの新しいアプローチを探求する。
論文 参考訳(メタデータ) (2025-03-13T22:53:24Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - Fusion-based Few-Shot Morphing Attack Detection and Fingerprinting [37.161842673434705]
顔認識システムは、モーフィング攻撃に弱い。
既存のモーフィング攻撃検出手法の多くは、大量のトレーニングデータを必要としており、いくつかの事前定義された攻撃モデルでのみテストされている。
我々は,MADを教師付き学習から少数ショット学習へ,バイナリ検出からマルチクラスフィンガープリントへ拡張することを提案する。
論文 参考訳(メタデータ) (2022-10-27T14:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。