Fugu-MT 論文翻訳(概要): A Systematic Failure Analysis of Vision Foundation Models for Open Set Iris Presentation Attack Detection

論文の概要: A Systematic Failure Analysis of Vision Foundation Models for Open Set Iris Presentation Attack Detection

arxiv url: http://arxiv.org/abs/2605.19020v1
Date: Mon, 18 May 2026 18:41:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:08.9253
Title: A Systematic Failure Analysis of Vision Foundation Models for Open Set Iris Presentation Attack Detection
Title（参考訳）: 開集合アイリス提示検出のためのビジョン基礎モデルの系統的故障解析
Authors: Rahul Anand, Siddharth Singh, Dileep A D, Mahadeva Prasanna, Raghavendra Ramachandra,
Abstract要約: 本研究は、近視画像を用いたオープンセット虹彩PADのための汎用視覚基盤モデルの系統的故障解析を行う。その結果、基礎モデルは、類似したセンシング特性を持つデータセット間で転送可能であるが、未知の攻撃機器に対して確実に一般化できないことが示唆された。これらの結果から,強いクローズドセットやクロスデータセットのパフォーマンスは,堅牢なオープンセットセキュリティの証拠として扱うべきではないことが示唆された。
参考スコア（独自算出の注目度）: 6.472008340680056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision foundation models have demonstrated strong transferability across diverse visual recognition tasks and are increasingly considered for biometric applications. Their suitability for iris Presentation Attack Detection (PAD), particularly under realistic open-set operating conditions, remains insufficiently examined. This work presents a systematic failure analysis of general-purpose vision foundation models for open-set iris PAD using periocular imagery. Five representative foundation models are evaluated under three open-set protocols that explicitly separate different sources of distribution shift: unseen Presentation Attack Instruments (PAIs), unseen datasets captured with different sensors and cross-spectral transfer from near-infrared (NIR) to visible spectrum (VIS) imagery. Both frozen feature representations and parameter-efficient task adaptation using Low-Rank Adaptation (LoRA) are assessed within a unified experimental framework. The results indicate that foundation models can transfer across datasets with similar sensing characteristics, but fail to generalise reliably to unseen attack instruments and degrade sharply under cross-spectral evaluation. While LoRA improves performance in certain cross-dataset settings, it frequently amplifies failure under attack-level and spectral shifts. Additional validation experiments using segmented iris inputs, full backbone fine-tuning, joint cross-dataset and cross-PAI shifts, and reverse VIS to NIR transfer further confirm that these failures are not simply artefacts of periocular input, weak adaptation, or one-directional spectral evaluation. These findings show that strong closed-set or cross-dataset performance should not be treated as evidence of robust open-set security, and highlight the need for PAD representations that maintain sensitivity to presentation artefacts while remaining stable under realistic deployment variation.
Abstract（参考訳）: 視覚基礎モデルは、多様な視覚認識タスク間で強い伝達可能性を示しており、生体計測応用としてますます検討されている。 Iris Presentation Detection (PAD) に対する適合性は, 現実的なオープンセット操作条件下では不十分である。本研究は、近視画像を用いたオープンセット虹彩PADのための汎用視覚基盤モデルの系統的故障解析を行う。 5つの代表的な基盤モデルは、3つのオープンセットのプロトコルで評価され、これは分布シフトのソースを明確に区別する: 見えないプレゼンテーションアタック・インスツルメンツ(PAI)、異なるセンサーでキャプチャされた見えないデータセット、近赤外線(NIR)から可視スペクトル(VIS)画像へのクロススペクトル転送である。 Low-Rank Adaptation (LoRA) を用いた凍結した特徴表現とパラメータ効率のタスク適応の両方を、統一された実験フレームワーク内で評価する。その結果、基礎モデルは、類似したセンシング特性を持つデータセット間で転送可能であるが、未確認の攻撃機器に確実に一般化することができず、クロススペクトル評価の下で急激に劣化することが示された。 LoRAは特定のデータセット設定のパフォーマンスを改善するが、攻撃レベルとスペクトルシフト下での障害を頻繁に増幅する。セグメンテッドアイリス入力、フルバックボーン微調整、ジョイントクロスデータセット、クロスPAIシフト、およびリバースVIS to NIR転送を用いた追加の検証実験により、これらの故障は単に近眼入力、弱い適応、一方向スペクトル評価の人工物ではないことがさらに確認された。これらの結果から, 強力なクローズドセットやクロスデータセットのパフォーマンスは, 堅牢なオープンセットセキュリティの証拠として扱われるべきではないことが示唆され, 現実的な展開変動下で安定を維持しつつ, プレゼンテーションアーチファクトに対する感受性を維持するPAD表現の必要性が強調された。

関連論文リスト

Causal Bootstrapped Alignment for Unsupervised Video-Based Visible-Infrared Person Re-Identification [52.784239635604735]
VVI-ReIDは、静止画像以外にも時間情報が付加的な手がかりを提供する、全日監視のための重要な技術である。既存のアプローチは、高価なクロスモダリティアノテーションによる完全な教師付き学習に大きく依存しており、スケーラビリティが制限されています。そこで,本研究では,ビデオの先行を明示的に活用するCausal Bootstrapped Alignmentフレームワークを提案する。
論文参考訳（メタデータ） (2026-04-17T02:15:59Z)
Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization [14.358458317718174]
視覚的赤外設定における逆パッチを生成するための共同位置色最適化フレームワーク(AP-PCO)を提案する。我々は、赤外線グレースケール特性に応じてパッチの外観を制約するクロスモーダルカラー適応戦略を導入する。視覚赤外高密度予測タスクの実験は、提案したAP-PCOが一貫して強力な攻撃性能を発揮することを示す。
論文参考訳（メタデータ） (2026-02-27T19:26:17Z)
Modality-Aware Bias Mitigation and Invariance Learning for Unsupervised Visible-Infrared Person Re-Identification [14.343677160918723]
教師なし可視赤外線人物再識別(USVI-ReID)は、アノテーションに頼ることなく、可視・赤外線カメラ間で個人をマッチングすることを目的としている。信頼性の高いクロスモダリティ・アソシエーションを推定することは、USVI-ReIDにおいて大きな課題である。本稿では、偏りを緩和したグローバルアソシエーションとモダリティ不変表現学習という2つの側面から、モダリティ間の学習に対処することに焦点を当てる。
論文参考訳（メタデータ） (2025-12-08T17:42:28Z)
RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文参考訳（メタデータ） (2025-09-26T13:53:25Z)
Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文参考訳（メタデータ） (2025-09-21T02:45:07Z)
Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF [51.36007967653781]
ViT(Vision Transformers)は、顔や身体の認識を含む幅広い生体計測タスクにおいて、印象的なパフォーマンスを誇示している。本研究では、視認性(VIS)画像に事前訓練されたVTモデルを、クロススペクトル体認識の難しい問題に適用する。このアイデアに基づいて、我々はSide Information Embedding (SIE)を統合し、ドメインとカメラ情報のエンコーディングの影響を調べ、スペクトル間マッチングを強化する。驚くべきことに、我々の結果は、ドメイン情報を明示的に組み込むことなく、カメラ情報のみを符号化することで、LLCMデータセット上で最先端のパフォーマンスが得られることを示している。
論文参考訳（メタデータ） (2025-06-10T16:20:52Z)
AetherVision-Bench: An Open-Vocabulary RGB-Infrared Benchmark for Multi-Angle Segmentation across Aerial and Ground Perspectives [2.0293118701268154]
身近なAIシステムは、認識能力を高めて、地上車両やドローンの自律的なナビゲーションを変革している。 AetherVision-Benchは空中および地上の多角的セグメンテーションのベンチマークである。提案したベンチマークを用いて最先端のOVSSモデルを評価し,ゼロショット転送モデルの性能に影響を及ぼす要因について検討する。
論文参考訳（メタデータ） (2025-06-04T08:41:19Z)
Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文参考訳（メタデータ） (2025-03-13T22:38:18Z)
Self-Supervised Graph Transformer for Deepfake Detection [1.8133635752982105]
ディープフェイク検出手法は、与えられたデータセット内の偽造を認識できる有望な結果を示している。ディープフェイク検出システムは、一般的な検出性能を保証するために、偽造タイプ、外観、品質に欠かせないままでいなければならない。本研究では、自己教師付き事前学習モデルを利用して、例外的な一般化能力を実現するディープフェイク検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-27T17:22:41Z)
Causal Effect Estimation with Variational AutoEncoder and the Front Door Criterion [23.20371860838245]
フロントドア基準は、データからフロントドア調整に使用される変数の集合を特定することがしばしば困難である。表現学習における深層生成モデルの能力を活用して、変分オートエンコーダを用いたフロントドア調整セットの表現を学習するためのFDVAEを提案する。
論文参考訳（メタデータ） (2023-04-24T10:04:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。