Fugu-MT 論文翻訳(概要): Benchmarking Foundation Models for Zero-Shot Biometric Tasks

論文の概要: Benchmarking Foundation Models for Zero-Shot Biometric Tasks

arxiv url: http://arxiv.org/abs/2505.24214v1
Date: Fri, 30 May 2025 04:53:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.776357
Title: Benchmarking Foundation Models for Zero-Shot Biometric Tasks
Title（参考訳）: ゼロショットバイオメトリックタスクのためのベンチマーク基礎モデル
Authors: Redwan Sony, Parisa Farmanifard, Hamzeh Alzwairy, Nitish Shukla, Arun Ross,
Abstract要約: 基礎モデル、特にVLM(Vision-Language Models)とMLLM(Multi-modal Large Language Models)は、人工知能のフロンティアを再定義した。本研究では,6つのバイオメトリック・タスクにわたる最先端のVLMとMLLMのゼロショット性能と少数ショット性能を評価するベンチマークを提案する。実験により、これらの基礎モデルからの埋め込みは、様々な成功度を持つ多様な生体計測タスクに利用できることが示された。
参考スコア（独自算出の注目度）: 8.276938046158163
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advent of foundation models, particularly Vision-Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), has redefined the frontiers of artificial intelligence, enabling remarkable generalization across diverse tasks with minimal or no supervision. Yet, their potential in biometric recognition and analysis remains relatively underexplored. In this work, we introduce a comprehensive benchmark that evaluates the zero-shot and few-shot performance of state-of-the-art publicly available VLMs and MLLMs across six biometric tasks spanning the face and iris modalities: face verification, soft biometric attribute prediction (gender and race), iris recognition, presentation attack detection (PAD), and face manipulation detection (morphs and deepfakes). A total of 41 VLMs were used in this evaluation. Experiments show that embeddings from these foundation models can be used for diverse biometric tasks with varying degrees of success. For example, in the case of face verification, a True Match Rate (TMR) of 96.77 percent was obtained at a False Match Rate (FMR) of 1 percent on the Labeled Face in the Wild (LFW) dataset, without any fine-tuning. In the case of iris recognition, the TMR at 1 percent FMR on the IITD-R-Full dataset was 97.55 percent without any fine-tuning. Further, we show that applying a simple classifier head to these embeddings can help perform DeepFake detection for faces, Presentation Attack Detection (PAD) for irides, and extract soft biometric attributes like gender and ethnicity from faces with reasonably high accuracy. This work reiterates the potential of pretrained models in achieving the long-term vision of Artificial General Intelligence.
Abstract（参考訳）: VLM(Vision-Language Models)やMLLM(Multi-Modal Large Language Models)といった基礎モデルの出現は、人工知能のフロンティアを再定義し、最小あるいは無監督で様々なタスクをまたいだ顕著な一般化を可能にした。しかし、生体認証と分析におけるそのポテンシャルは、いまだに未解明のままである。本研究では,顔認証,ソフトバイオメトリック属性予測(性別と人種),虹彩認識,プレゼンテーションアタック検出(PAD),顔検出(形態とディープフェイク)の6つのバイオメトリックタスクを対象とした,最先端のVLMとMLLMのゼロショットと少数ショットのパフォーマンスを評価する総合ベンチマークを提案する。この評価には合計41両のVLMが用いられた。実験により、これらの基礎モデルからの埋め込みは、様々な成功度を持つ多様な生体計測タスクに利用できることが示された。例えば、顔認証の場合、FMR(False Match Rate)で96.77%のTrue Match Rate(TMR)が得られた。虹彩認識の場合、IITD-R-Fullデータセットの1%のFMRは、微調整なしで97.55パーセントであった。さらに、これらの埋め込みに単純な分類器ヘッドを適用することで、顔のディープフェイク検出、イリドの提示検出(PAD)、性別や民族などの柔らかい生体特性を、合理的に高い精度で抽出できることを示す。この研究は、人工知能の長期的なビジョンを達成するための事前訓練されたモデルの可能性を再評価する。

関連論文リスト

ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。 ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文参考訳（メタデータ） (2025-08-02T15:21:26Z)
Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait [70.00430652562012]
FarSightは、顔認識のためのエンドツーエンドシステムで、顔、歩行、体形を横断する生体計測の手がかりを統合する。 FarSightは、4つのコアモジュールにまたがる新しいアルゴリズムを組み込んでいる。
論文参考訳（メタデータ） (2025-05-07T17:58:25Z)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。 GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Representation Learning and Identity Adversarial Training for Facial Behavior Understanding [3.350769246260559]
AU検出の基本的な要素として,多種多様データと大規模データと主観的同一性正則化の2つを再検討する。 Face9M上でのマスク付きオートエンコーダの事前トレーニングは、AU検出と表情タスクにおいて強いパフォーマンスをもたらす。提案手法であるFMAE(Facial Masked Autoencoder)とIATは単純で汎用的で効果的である。
論文参考訳（メタデータ） (2024-07-15T21:13:28Z)
CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection [3.849401956130233]
広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
論文参考訳（メタデータ） (2024-02-20T11:26:42Z)
SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [61.8876114116716]
MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
論文参考訳（メタデータ） (2024-02-06T17:31:36Z)
Pushing Boundaries: Exploring Zero Shot Object Classification with Large Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文参考訳（メタデータ） (2023-12-30T03:19:54Z)
SwinFace: A Multi-task Transformer for Face Recognition, Expression Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-08-22T15:38:39Z)
Facial Soft Biometrics for Recognition in the Wild: Recent Works, Annotation, and COTS Evaluation [63.05890836038913]
制約のないシナリオにおける人物認識システムを強化するために,ソフトバイオメトリックスが果たす役割について検討する。 1) ソフトバイオメトリックスのマニュアル推定と,2) 市販オフザシェルフシステムによる自動推定の2つの仮定を考察する。深層学習に基づく2つの最先端顔認識システムを用いた軟式生体計測実験を行った。
論文参考訳（メタデータ） (2022-10-24T11:29:57Z)
Unsupervised Learning Facial Parameter Regressor for Action Unit Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文参考訳（メタデータ） (2020-08-20T09:49:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。