論文の概要: Benchmarking Multimodal Large Language Models for Face Recognition
- arxiv url: http://arxiv.org/abs/2510.14866v1
- Date: Thu, 16 Oct 2025 16:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.954165
- Title: Benchmarking Multimodal Large Language Models for Face Recognition
- Title(参考訳): 顔認識のためのマルチモーダル大言語モデルのベンチマーク
- Authors: Hatef Otroshi Shahreza, Sébastien Marcel,
- Abstract要約: MLLM(Multimodal large language model)は、様々な視覚・言語タスクにおいて顕著なパフォーマンスを実現している。
いくつかの顔認識データセット上での顔認識のための最先端MLLMの体系的ベンチマークを示す。
- 参考スコア(独自算出の注目度): 44.02544110500887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable performance across diverse vision-and-language tasks. However, their potential in face recognition remains underexplored. In particular, the performance of open-source MLLMs needs to be evaluated and compared with existing face recognition models on standard benchmarks with similar protocol. In this work, we present a systematic benchmark of state-of-the-art MLLMs for face recognition on several face recognition datasets, including LFW, CALFW, CPLFW, CFP, AgeDB and RFW. Experimental results reveal that while MLLMs capture rich semantic cues useful for face-related tasks, they lag behind specialized models in high-precision recognition scenarios in zero-shot applications. This benchmark provides a foundation for advancing MLLM-based face recognition, offering insights for the design of next-generation models with higher accuracy and generalization. The source code of our benchmark is publicly available in the project page.
- Abstract(参考訳): MLLM(Multimodal large language model)は、様々な視覚・言語タスクにおいて顕著なパフォーマンスを実現している。
しかし、その顔認識能力は未解明のままである。
特に、オープンソースのMLLMの性能を、類似したプロトコルを持つ標準ベンチマークにおける既存の顔認識モデルと比較し、評価する必要がある。
本研究では, LFW, CALFW, CPLFW, CFP, AgeDB, RFWなど, 顔認識のための最先端MLLMの体系的ベンチマークを示す。
実験の結果、MLLMは顔関連タスクに有用なリッチなセマンティックなキューをキャプチャするが、ゼロショットアプリケーションにおける高精度な認識シナリオにおいて、特殊なモデルに遅れがあることが判明した。
このベンチマークはMLLMベースの顔認識の進歩の基礎を提供し、より高精度で一般化された次世代モデルの設計に関する洞察を提供する。
私たちのベンチマークのソースコードは、プロジェクトページで公開されています。
関連論文リスト
- FaceLLM: A Multimodal Large Language Model for Face Understanding [22.8742248559748]
顔画像理解に特化して訓練された多モーダル大言語モデルFaceLLMを紹介する。
トレーニングデータを構築するために,ChatGPTと属性認識プロンプトを併用して高品質な質問応答ペアを生成する,弱教師付きパイプラインを提案する。
実験により,FaceLLMは様々な顔中心タスクにおけるMLLMの性能を向上し,最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2025-07-14T14:04:14Z) - FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs [38.2031868024552]
MLLMの包括的顔認識能力を評価するために,階層的マルチビューとマルチレベル属性を備えたデータセットであるFaceBenchを紹介する。
この構造に基づいて、提案したFaceBenchは、評価のための49,919の視覚的質問応答(VQA)ペアと、微調整のための23,841のペアで構成されている。
さらに,提案した顔VQAデータを用いて,ロバストな顔認識MLLMベースラインであるFace-LLaVAを開発した。
論文 参考訳(メタデータ) (2025-03-27T12:45:44Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - Tell Me Where You Are: Multimodal LLMs Meet Place Recognition [11.421492098416538]
視覚的位置認識(VPR)にマルチモーダル大言語モデル(MLLM)を導入する。
我々のキーとなる設計は、視覚に基づく検索を用いて複数の候補を提案し、言語に基づく推論を利用して最終決定のために各候補を慎重に検査することである。
3つのデータセットから得られた結果から,VFMの汎用的視覚特徴とMLLMの推論能力の統合が,すでに有効な位置認識ソリューションを提供していることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T12:59:46Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。