論文の概要: FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs
- arxiv url: http://arxiv.org/abs/2503.21457v1
- Date: Thu, 27 Mar 2025 12:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:30.491140
- Title: FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs
- Title(参考訳): FaceBench: 顔認識MLLMのベンチマークのためのマルチビューマルチレベル顔属性VQAデータセット
- Authors: Xiaoqin Wang, Xusen Ma, Xianxu Hou, Meidan Ding, Yudong Li, Junliang Chen, Wenting Chen, Xiaoyang Peng, Linlin Shen,
- Abstract要約: MLLMの包括的顔認識能力を評価するために,階層的マルチビューとマルチレベル属性を備えたデータセットであるFaceBenchを紹介する。
この構造に基づいて、提案したFaceBenchは、評価のための49,919の視覚的質問応答(VQA)ペアと、微調整のための23,841のペアで構成されている。
さらに,提案した顔VQAデータを用いて,ロバストな顔認識MLLMベースラインであるFace-LLaVAを開発した。
- 参考スコア(独自算出の注目度): 38.2031868024552
- License:
- Abstract: Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in various tasks. However, effectively evaluating these MLLMs on face perception remains largely unexplored. To address this gap, we introduce FaceBench, a dataset featuring hierarchical multi-view and multi-level attributes specifically designed to assess the comprehensive face perception abilities of MLLMs. Initially, we construct a hierarchical facial attribute structure, which encompasses five views with up to three levels of attributes, totaling over 210 attributes and 700 attribute values. Based on the structure, the proposed FaceBench consists of 49,919 visual question-answering (VQA) pairs for evaluation and 23,841 pairs for fine-tuning. Moreover, we further develop a robust face perception MLLM baseline, Face-LLaVA, by training with our proposed face VQA data. Extensive experiments on various mainstream MLLMs and Face-LLaVA are conducted to test their face perception ability, with results also compared against human performance. The results reveal that, the existing MLLMs are far from satisfactory in understanding the fine-grained facial attributes, while our Face-LLaVA significantly outperforms existing open-source models with a small amount of training data and is comparable to commercial ones like GPT-4o and Gemini. The dataset will be released at https://github.com/CVI-SZU/FaceBench.
- Abstract(参考訳): MLLM(Multimodal large language model)は、様々なタスクにおいて顕著な機能を示す。
しかし、これらのMLLMを顔の知覚に効果的に評価することは、まだほとんど研究されていない。
このギャップに対処するために、我々は、MLLMの包括的顔認識能力を評価するために特別に設計された階層的マルチビューとマルチレベル属性を備えたデータセットであるFaceBenchを紹介した。
まず,最大3レベルの属性を持つ5つのビューを含み,合計210以上の属性と700以上の属性を持つ階層的な顔属性構造を構築した。
この構造に基づいて、提案したFaceBenchは、評価のための49,919の視覚的質問応答(VQA)ペアと、微調整のための23,841のペアで構成されている。
さらに,提案した顔VQAデータを用いたトレーニングにより,ロバストな顔認識MLLMベースラインであるFace-LLaVAをさらに発展させる。
種々のメインストリームMLLMとFace-LLaVAの多種多様な実験を行い, 顔の知覚能力の検証を行った。
その結果、既存のMLLMはきめ細かい顔の属性を理解するのに十分ではないことが明らかとなり、Face-LLaVAはトレーニングデータが少ない既存のオープンソースモデルよりも大幅に優れており、GPT-4oやGeminiのような商用モデルに匹敵することがわかった。
データセットはhttps://github.com/CVI-SZU/FaceBench.comでリリースされる。
関連論文リスト
- EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - FaceXBench: Evaluating Multimodal LLMs on Face Understanding [30.86305376082235]
複雑な顔理解タスクのMLLMを評価するためのベンチマークであるFaceXBenchを紹介する。
FaceXBenchには、25の公開データセットと新しく作成されたデータセットであるFaceXAPIから派生した5000のマルチモーダルな多重選択質問が含まれている。
2つのプロプライエタリなモデルとともに、26のオープンソースMLLMを広範囲に評価し、複雑な顔理解タスクにおけるユニークな課題を明らかにする。
論文 参考訳(メタデータ) (2025-01-17T18:59:55Z) - Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。