論文の概要: MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of
Multimodal Large Language Models in Perception
- arxiv url: http://arxiv.org/abs/2401.07529v1
- Date: Mon, 15 Jan 2024 08:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:46:24.361507
- Title: MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of
Multimodal Large Language Models in Perception
- Title(参考訳): MM-SAP:マルチモーダル大規模言語モデルの認識における自己認識評価のための総合ベンチマーク
- Authors: Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng
Wang
- Abstract要約: 本稿では,MLLMの知覚における自己認識能力を評価するための新しいベンチマークを提案する。
MM-SAPは3つの異なるサブデータセットを含み、それぞれが自己認識の異なる側面に焦点を当てている。
MM-SAPを用いて8つの有名なMLLMを評価し,その自己認識を分析し,詳細な知見を提供する。
- 参考スコア(独自算出の注目度): 22.888797134331895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown their remarkable
abilities in visual perception and understanding recently. However, how to
comprehensively evaluate the capabilities of MLLMs remains a challenge. Most of
the existing benchmarks predominantly focus on assessing perception, cognition,
and reasoning, neglecting the abilities of self-awareness, referring to the
model's recognition of its own capability boundary. In our study, we focus on
self-awareness in image perception and introduce the knowledge quadrant for
MLLMs, which clearly defines the knowns and unknowns in perception. Based on
this, we propose a novel benchmark specifically designed to evaluate the
Self-Aware capabilities in Perception for MLLMs(MM-SAP). MM-SAP encompasses
three distinct sub-datasets, each focusing on different aspects of
self-awareness. We evaluated eight well-known MLLMs using MM-SAP, analyzing
their self-awareness and providing detailed insights. Code and data are
available at https://github.com/YHWmz/MM-SAP
- Abstract(参考訳): マルチモーダル大言語モデル(mllm)は、視覚知覚と理解において目覚ましい能力を示している。
しかし、MLLMの能力を総合的に評価する方法は依然として課題である。
既存のベンチマークのほとんどは、主に知覚、認知、推論を評価し、自己認識能力を無視し、モデルの能力境界を認識することに焦点を当てている。
本研究では,画像知覚における自己認識に着目し,認識の未知と未知を明確に定義したmllmsの知識象限を導入する。
そこで本研究では,MLLM(MM-SAP)の知覚における自己認識能力を評価するための新しいベンチマークを提案する。
MM-SAPは3つの異なるサブデータセットを含み、それぞれが自己認識の異なる側面に焦点を当てている。
MM-SAPを用いて8つの有名なMLLMを評価し,その自己認識を分析し,詳細な知見を得た。
コードとデータはhttps://github.com/YHWmz/MM-SAPで公開されている。
関連論文リスト
- Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。
本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。
我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文 参考訳(メタデータ) (2024-08-16T09:52:02Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文 参考訳(メタデータ) (2024-02-07T12:28:32Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。