論文の概要: Evaluating Multimodal Large Language Models for Heterogeneous Face Recognition
- arxiv url: http://arxiv.org/abs/2601.15406v1
- Date: Wed, 21 Jan 2026 19:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.394696
- Title: Evaluating Multimodal Large Language Models for Heterogeneous Face Recognition
- Title(参考訳): 不均一顔認証のための多モード大言語モデルの評価
- Authors: Hatef Otroshi Shahreza, Anjith George, Sébastien Marcel,
- Abstract要約: MLLM(Multimodal Large Language Models)は、近ごろ、幅広い視覚言語タスクにおいて強力な性能を示した。
我々は、VIS-NIR、VIS-SWIR、VIS-AL顔認識など、複数のクロスプラットフォームMLLMをベンチマークする。
以上の結果から,MLLMと従来の顔認識システムの間には,特に難易度の高いクロススペクトル条件下での顕著な性能差が明らかとなった。
- 参考スコア(独自算出の注目度): 45.12459792999638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently demonstrated strong performance on a wide range of vision-language tasks, raising interest in their potential use for biometric applications. In this paper, we conduct a systematic evaluation of state-of-the-art MLLMs for heterogeneous face recognition (HFR), where enrollment and probe images are from different sensing modalities, including visual (VIS), near infrared (NIR), short-wave infrared (SWIR), and thermal camera. We benchmark multiple open-source MLLMs across several cross-modality scenarios, including VIS-NIR, VIS-SWIR, and VIS-THERMAL face recognition. The recognition performance of MLLMs is evaluated using biometric protocols and based on different metrics, including Acquire Rate, Equal Error Rate (EER), and True Accept Rate (TAR). Our results reveal substantial performance gaps between MLLMs and classical face recognition systems, particularly under challenging cross-spectral conditions, in spite of recent advances in MLLMs. Our findings highlight the limitations of current MLLMs for HFR and also the importance of rigorous biometric evaluation when considering their deployment in face recognition systems.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、最近、広範囲の視覚言語タスクにおいて強力なパフォーマンスを示し、生体認証アプリケーションへの潜在的な使用に対する関心を高めている。
本稿では、視覚(VIS)、近赤外(NIR)、短波赤外(SWIR)、サーマルカメラなど、さまざまなセンシングモードから、入射画像とプローブ画像が抽出されるヘテロジニアス顔認識(HFR)のための最先端MLLMの体系的評価を行う。
我々は、VIS-NIR、VIS-SWIR、VIS-THERMAL顔認識など、複数のクロスプラットフォームMLLMをベンチマークする。
MLLMの認識性能は,生体計測プロトコルを用いて評価し,取得率,等価誤差率(EER),真受容率(TAR)など,さまざまな指標に基づいて評価する。
MLLMの最近の進歩にもかかわらず, 従来の顔認識システムと, 特に難易度の高いクロススペクトル条件下では, 顕著な性能差がみられた。
本研究は,HFRにおけるMLLMの限界と,顔認識システムへの展開を考慮し,厳密な生体計測評価の重要性を浮き彫りにした。
関連論文リスト
- Rethinking Facial Expression Recognition in the Era of Multimodal Large Language Models: Benchmark, Datasets, and Beyond [116.65158801881984]
MLLMの表情推論能力の向上を目的とした後学習戦略を提案する。
We developed a unified and interpretable FER foundation model called UniFER-7B。
論文 参考訳(メタデータ) (2025-11-01T03:53:00Z) - Benchmarking Multimodal Large Language Models for Face Recognition [44.02544110500887]
MLLM(Multimodal large language model)は、様々な視覚・言語タスクにおいて顕著なパフォーマンスを実現している。
いくつかの顔認識データセット上での顔認識のための最先端MLLMの体系的ベンチマークを示す。
論文 参考訳(メタデータ) (2025-10-16T16:42:27Z) - A Vision Centric Remote Sensing Benchmark [21.48675282619887]
リモートセンシングタスクにおけるCLIPに基づくMLLMの限界について検討した。
リモートセンシングマルチモーダル視覚パターン(RSMMVP)ベンチマークを導入する。
CLIP-blindペアを識別することで、RSタスクのMLLMを評価するように設計されている。
我々は最先端MLLMの性能を解析し、RS特化表現学習における重要な制限を明らかにした。
論文 参考訳(メタデータ) (2025-03-20T03:03:46Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Improved Baselines for Data-efficient Perceptual Augmentation of LLMs [66.05826802808177]
コンピュータビジョンでは、画像キャプションや視覚的質問応答などの視覚言語タスクに、大きな言語モデル(LLM)を用いることができる。
複数のタスクにまたがる異なる対面機構を実験的に評価する。
異なるタスク間で(ほぼ)最適な結果をもたらす新しいインターフェース機構を同定し、トレーニング時間を4倍短縮する。
論文 参考訳(メタデータ) (2024-03-20T10:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。