論文の概要: FaceXBench: Evaluating Multimodal LLMs on Face Understanding
- arxiv url: http://arxiv.org/abs/2501.10360v1
- Date: Fri, 17 Jan 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:29.387659
- Title: FaceXBench: Evaluating Multimodal LLMs on Face Understanding
- Title(参考訳): FaceXBench: 顔理解におけるマルチモーダルLLMの評価
- Authors: Kartik Narayan, Vibashan VS, Vishal M. Patel,
- Abstract要約: 複雑な顔理解タスクのMLLMを評価するためのベンチマークであるFaceXBenchを紹介する。
FaceXBenchには、25の公開データセットと新しく作成されたデータセットであるFaceXAPIから派生した5000のマルチモーダルな多重選択質問が含まれている。
2つのプロプライエタリなモデルとともに、26のオープンソースMLLMを広範囲に評価し、複雑な顔理解タスクにおけるユニークな課題を明らかにする。
- 参考スコア(独自算出の注目度): 30.86305376082235
- License:
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate impressive problem-solving abilities across a wide range of tasks and domains. However, their capacity for face understanding has not been systematically studied. To address this gap, we introduce FaceXBench, a comprehensive benchmark designed to evaluate MLLMs on complex face understanding tasks. FaceXBench includes 5,000 multimodal multiple-choice questions derived from 25 public datasets and a newly created dataset, FaceXAPI. These questions cover 14 tasks across 6 broad categories, assessing MLLMs' face understanding abilities in bias and fairness, face authentication, recognition, analysis, localization and tool retrieval. Using FaceXBench, we conduct an extensive evaluation of 26 open-source MLLMs alongside 2 proprietary models, revealing the unique challenges in complex face understanding tasks. We analyze the models across three evaluation settings: zero-shot, in-context task description, and chain-of-thought prompting. Our detailed analysis reveals that current MLLMs, including advanced models like GPT-4o, and GeminiPro 1.5, show significant room for improvement. We believe FaceXBench will be a crucial resource for developing MLLMs equipped to perform sophisticated face understanding. Code: https://github.com/Kartik-3004/facexbench
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々なタスクやドメインにまたがる優れた問題解決能力を示す。
しかし、顔の理解能力は体系的に研究されていない。
このギャップに対処するために、複雑な顔理解タスクにおけるMLLMを評価するために設計された総合的なベンチマークであるFaceXBenchを紹介する。
FaceXBenchには、25の公開データセットと新しく作成されたデータセットであるFaceXAPIから派生した5000のマルチモーダルな多重選択質問が含まれている。
これらの質問は、MLLMのバイアスと公平性、顔認証、認識、分析、ローカライゼーション、ツール検索における顔理解能力を評価する6つの幅広いカテゴリにまたがる14のタスクをカバーしている。
FaceXBenchを用いて、2つのプロプライエタリモデルとともに26のオープンソースMLLMを広範囲に評価し、複雑な顔理解タスクにおけるユニークな課題を明らかにする。
我々は、ゼロショット、コンテキスト内タスク記述、チェーン・オブ・シークレットの3つの評価設定でモデルを解析する。
GPT-4o や GeminiPro 1.5 などの先進モデルを含む現在の MLLM は,改良の余地が大きかった。
FaceXBenchは、高度な顔理解を行うためのMLLMを開発する上で、重要なリソースになると考えています。
コード:https://github.com/Kartik-3004/facexbench
関連論文リスト
- Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。
私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-03-10T12:43:27Z) - MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms [25.73585435351771]
本稿では,マルチモーダル大規模言語モデルによるソーシャルメディアコンテンツの理解を評価するためのベンチマークであるMM-Socを紹介する。
MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、新しい大規模なYouTubeタグ付けデータセットを組み込む。
分析の結果、ゼロショット環境では、様々なMLLMが一般的にソーシャルメディアのタスクを扱うのに困難を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T22:27:40Z) - From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on
Generalizability, Trustworthiness and Causality through Four Modalities [111.44485171421535]
本研究では,最近のプロプライエタリおよびオープンソースMLLMの一般化性,信頼性,因果推論能力について,4つのモードで検討する。
これらの特性はMLLMの信頼性を定義するいくつかの代表的な要因であると考えている。
我々は,プロプライエタリなMLLMとオープンソースMLLMの両方の機能と限界を理解するのに有用な,14の実証的な発見を発見した。
論文 参考訳(メタデータ) (2024-01-26T18:53:03Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。