Fugu-MT 論文翻訳(概要): FaceXBench: Evaluating Multimodal LLMs on Face Understanding

論文の概要: FaceXBench: Evaluating Multimodal LLMs on Face Understanding

arxiv url: http://arxiv.org/abs/2501.10360v2
Date: Mon, 10 Mar 2025 18:19:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 16:15:12.197702
Title: FaceXBench: Evaluating Multimodal LLMs on Face Understanding
Title（参考訳）: FaceXBench: 顔理解におけるマルチモーダルLLMの評価
Authors: Kartik Narayan, Vibashan VS, Vishal M. Patel,
Abstract要約: 複雑な顔理解タスクのMLLMを評価するためのベンチマークであるFaceXBenchを紹介する。 FaceXBenchには、25の公開データセットと新しく作成されたデータセットであるFaceXAPIから派生した5000のマルチモーダルな多重選択質問が含まれている。 2つのプロプライエタリなモデルとともに、26のオープンソースMLLMを広範囲に評価し、複雑な顔理解タスクにおけるユニークな課題を明らかにする。
参考スコア（独自算出の注目度）: 30.86305376082235
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) demonstrate impressive problem-solving abilities across a wide range of tasks and domains. However, their capacity for face understanding has not been systematically studied. To address this gap, we introduce FaceXBench, a comprehensive benchmark designed to evaluate MLLMs on complex face understanding tasks. FaceXBench includes 5,000 multimodal multiple-choice questions derived from 25 public datasets and a newly created dataset, FaceXAPI. These questions cover 14 tasks across 6 broad categories, assessing MLLMs' face understanding abilities in bias and fairness, face authentication, recognition, analysis, localization and tool retrieval. Using FaceXBench, we conduct an extensive evaluation of 26 open-source MLLMs alongside 2 proprietary models, revealing the unique challenges in complex face understanding tasks. We analyze the models across three evaluation settings: zero-shot, in-context task description, and chain-of-thought prompting. Our detailed analysis reveals that current MLLMs, including advanced models like GPT-4o, and GeminiPro 1.5, show significant room for improvement. We believe FaceXBench will be a crucial resource for developing MLLMs equipped to perform sophisticated face understanding. Code: https://github.com/Kartik-3004/facexbench
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、様々なタスクやドメインにまたがる優れた問題解決能力を示す。しかし、顔の理解能力は体系的に研究されていない。このギャップに対処するために、複雑な顔理解タスクにおけるMLLMを評価するために設計された総合的なベンチマークであるFaceXBenchを紹介する。 FaceXBenchには、25の公開データセットと新しく作成されたデータセットであるFaceXAPIから派生した5000のマルチモーダルな多重選択質問が含まれている。これらの質問は、MLLMのバイアスと公平性、顔認証、認識、分析、ローカライゼーション、ツール検索における顔理解能力を評価する6つの幅広いカテゴリにまたがる14のタスクをカバーしている。 FaceXBenchを用いて、2つのプロプライエタリモデルとともに26のオープンソースMLLMを広範囲に評価し、複雑な顔理解タスクにおけるユニークな課題を明らかにする。我々は、ゼロショット、コンテキスト内タスク記述、チェーン・オブ・シークレットの3つの評価設定でモデルを解析する。 GPT-4o や GeminiPro 1.5 などの先進モデルを含む現在の MLLM は,改良の余地が大きかった。 FaceXBenchは、高度な顔理解を行うためのMLLMを開発する上で、重要なリソースになると考えています。コード:https://github.com/Kartik-3004/facexbench

関連論文リスト

Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs [9.951669153984708]
Do You See Me"は,1,758のイメージと2,612の質問を備えた,スケーラブルなベンチマークである。人間は96.49%の精度を達成し、トップMLLMは50%以下である。これは、真に堅牢な視覚知覚を持つMLLMに対して、緊急の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-28T13:31:32Z)
FaceInsight: A Multimodal Large Language Model for Face Perception [69.06084304620026]
本研究では,顔の詳細な情報を提供する多目的顔認識大言語モデル (MLLM) を提案する。本手法では, 顔情報間の不確かさと決定論的関係の両方をモデル化するために, 顔知識の視覚的・テキスト的アライメントを導入する。 3つの顔認識タスクに対する総合的な実験と分析により、FaceInsightはMLLMと比較した9つの性能を一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-04-22T06:31:57Z)
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。 Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs [38.2031868024552]
MLLMの包括的顔認識能力を評価するために,階層的マルチビューとマルチレベル属性を備えたデータセットであるFaceBenchを紹介する。この構造に基づいて、提案したFaceBenchは、評価のための49,919の視覚的質問応答(VQA)ペアと、微調整のための23,841のペアで構成されている。さらに,提案した顔VQAデータを用いて,ロバストな顔認識MLLMベースラインであるFace-LLaVAを開発した。
論文参考訳（メタデータ） (2025-03-27T12:45:44Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。 MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。 EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文参考訳（メタデータ） (2025-01-21T03:22:10Z)
Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文参考訳（メタデータ） (2024-10-28T04:19:32Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。 PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T20:35:41Z)
Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文参考訳（メタデータ） (2024-03-10T12:43:27Z)
From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities [111.44485171421535]
本研究では,最近のプロプライエタリおよびオープンソースMLLMの一般化性,信頼性,因果推論能力について,4つのモードで検討する。これらの特性はMLLMの信頼性を定義するいくつかの代表的な要因であると考えている。我々は,プロプライエタリなMLLMとオープンソースMLLMの両方の機能と限界を理解するのに有用な,14の実証的な発見を発見した。
論文参考訳（メタデータ） (2024-01-26T18:53:03Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。