論文の概要: Generalist Multimodal LLMs Gain Biometric Expertise via Human Salience
- arxiv url: http://arxiv.org/abs/2603.17173v1
- Date: Tue, 17 Mar 2026 22:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.419235
- Title: Generalist Multimodal LLMs Gain Biometric Expertise via Human Salience
- Title(参考訳): 汎用マルチモーダルLCMは人間のサリエンスによるバイオメトリックスペシャリストを獲得
- Authors: Jacob Piland, Byron Dowling, Christopher Sweet, Adam Czajka,
- Abstract要約: 汎用多目的大言語モデル(MLLM)は、人間の知識を付加してアイリスPADを実行することができる。
専門家インフォームドプロンプトを持つジェミニは、特殊な畳み込みニューラルネットワーク(CNN)ベースのベースラインと人間の検査者の両方より優れていることを示す。
この結果,機関プライバシ制約内に展開可能なMLLMは,アイリスPADに有効な経路であることが判明した。
- 参考スコア(独自算出の注目度): 3.0925941606647123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Iris presentation attack detection (PAD) is critical for secure biometric deployments, yet developing specialized models faces significant practical barriers: collecting data representing future unknown attacks is impossible, and collecting diverse-enough data, yet still limited in terms of its predictive power, is expensive. Additionally, sharing biometric data raises privacy concerns. Due to rapid emergence of new attack vectors demanding adaptable solutions, we thus investigate in this paper whether general-purpose multimodal large language models (MLLMs) can perform iris PAD when augmented with human expert knowledge, operating under strict privacy constraints that prohibit sending biometric data to public cloud MLLM services. Through analysis of vision encoder embeddings applied to our dataset, we demonstrate that pre-trained vision transformers in MLLMs inherently cluster many iris attack types despite never being explicitly trained for this task. However, where clustering shows overlap between attack classes, we find that structured prompts incorporating human salience (verbal descriptions from subjects identifying attack indicators) enable these models to resolve ambiguities. Testing on an IRB-restricted dataset of 224 iris images spanning seven attack types, using only university-approved services (Gemini 2.5 Pro) or locally-hosted models (e.g., Llama 3.2-Vision), we show that Gemini with expert-informed prompts outperforms both a specialized convolutional neural networks (CNN)-based baseline and human examiners, while the locally-deployable Llama achieves near-human performance. Our results establish that MLLMs deployable within institutional privacy constraints offer a viable path for iris PAD.
- Abstract(参考訳): アイリスの提示攻撃検出(PAD)は、安全な生体認証の展開には不可欠であるが、将来未知の攻撃を表すデータの収集は不可能であり、予測能力の面ではまだ制限されている多種多様なデータの収集は高価である。
さらに、生体データを共有することでプライバシーの懸念が高まる。
適応可能なソリューションを必要とする新たな攻撃ベクトルの急激な出現により,一般用マルチモーダル大規模言語モデル (MLLM) が,人的知識を付加してアイリスPADを実行可能かどうかを考察し,バイオメトリックデータをパブリッククラウドMLLMサービスに送信することを禁じる厳密なプライバシー制約の下で運用する。
我々のデータセットに適用したビジョンエンコーダの埋め込み解析を通じて、MLLMの事前学習されたビジョントランスフォーマーが、このタスクに対して明示的に訓練されていないにもかかわらず、本質的に多くのアイリスアタックタイプをクラスタ化することを示した。
しかしながら、クラスタリングが攻撃クラス間で重複している場合、構造化されたプロンプトが人間のサリエンス(攻撃指標を識別する被験者の言葉による記述)を取り入れることで、これらのモデルがあいまいさを解消できることがわかった。
大学が承認したサービス(Gemini 2.5 Pro)やローカルホスト型モデル(Llama 3.2-Vision)のみを用いて、7種類の攻撃タイプにまたがる224の虹彩画像のIRB制限データセットを検証したところ、専門家によるプロンプトによるジェミニは、CNNベースの特殊な畳み込みニューラルネットワーク(CNN)ベースのベースラインと人間の検査者の両方より優れており、ローカルにデプロイ可能なLlamaは、ほぼ人間に近いパフォーマンスを実現していることがわかった。
この結果,機関プライバシ制約内に展開可能なMLLMは,アイリスPADに有効な経路であることが判明した。
関連論文リスト
- A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。
モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。
本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-08-20T19:49:59Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - Can We Infer Confidential Properties of Training Data from LLMs? [32.582793399987274]
大規模言語モデル(LLM)のプロパティ推論を評価するベンチマークタスクであるPropInferを紹介する。
ChatDoctorデータセット上に構築されたベンチマークには、さまざまなプロパティタイプとタスク設定が含まれています。
本稿では,単語周波数信号を利用したプロンプトベース生成攻撃とシャドウモデル攻撃の2つを提案する。
論文 参考訳(メタデータ) (2025-06-12T05:42:06Z) - Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文 参考訳(メタデータ) (2025-05-02T06:51:11Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - On the Evaluation of User Privacy in Deep Neural Networks using Timing
Side Channel [14.350301915592027]
我々は,Deep Learning (DL) の実装において,新たなデータ依存型タイミング側チャネルリーク(クラスリーク)を特定し,報告する。
ユーザ特権とハードラベルのブラックボックスアクセスを持つ敵が、クラスリークを悪用できる、実用的な推論時攻撃を実証する。
我々は,クラスリークを緩和する定時分岐操作を行うことにより,実装が容易な対策を開発する。
論文 参考訳(メタデータ) (2022-08-01T19:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。