論文の概要: MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of
Multimodal Large Language Models in Perception
- arxiv url: http://arxiv.org/abs/2401.07529v1
- Date: Mon, 15 Jan 2024 08:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:46:24.361507
- Title: MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of
Multimodal Large Language Models in Perception
- Title(参考訳): MM-SAP:マルチモーダル大規模言語モデルの認識における自己認識評価のための総合ベンチマーク
- Authors: Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng
Wang
- Abstract要約: 本稿では,MLLMの知覚における自己認識能力を評価するための新しいベンチマークを提案する。
MM-SAPは3つの異なるサブデータセットを含み、それぞれが自己認識の異なる側面に焦点を当てている。
MM-SAPを用いて8つの有名なMLLMを評価し,その自己認識を分析し,詳細な知見を提供する。
- 参考スコア(独自算出の注目度): 22.888797134331895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown their remarkable
abilities in visual perception and understanding recently. However, how to
comprehensively evaluate the capabilities of MLLMs remains a challenge. Most of
the existing benchmarks predominantly focus on assessing perception, cognition,
and reasoning, neglecting the abilities of self-awareness, referring to the
model's recognition of its own capability boundary. In our study, we focus on
self-awareness in image perception and introduce the knowledge quadrant for
MLLMs, which clearly defines the knowns and unknowns in perception. Based on
this, we propose a novel benchmark specifically designed to evaluate the
Self-Aware capabilities in Perception for MLLMs(MM-SAP). MM-SAP encompasses
three distinct sub-datasets, each focusing on different aspects of
self-awareness. We evaluated eight well-known MLLMs using MM-SAP, analyzing
their self-awareness and providing detailed insights. Code and data are
available at https://github.com/YHWmz/MM-SAP
- Abstract(参考訳): マルチモーダル大言語モデル(mllm)は、視覚知覚と理解において目覚ましい能力を示している。
しかし、MLLMの能力を総合的に評価する方法は依然として課題である。
既存のベンチマークのほとんどは、主に知覚、認知、推論を評価し、自己認識能力を無視し、モデルの能力境界を認識することに焦点を当てている。
本研究では,画像知覚における自己認識に着目し,認識の未知と未知を明確に定義したmllmsの知識象限を導入する。
そこで本研究では,MLLM(MM-SAP)の知覚における自己認識能力を評価するための新しいベンチマークを提案する。
MM-SAPは3つの異なるサブデータセットを含み、それぞれが自己認識の異なる側面に焦点を当てている。
MM-SAPを用いて8つの有名なMLLMを評価し,その自己認識を分析し,詳細な知見を得た。
コードとデータはhttps://github.com/YHWmz/MM-SAPで公開されている。
関連論文リスト
- Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models [71.34097831618631]
textbfCountertextbfFactual textbfMultitextbfModal reasoning benchmark(略して textbfCFMM)を導入する。
我々のCFMMは6つの課題からなる。
既存のMLLMは、自分たちが見ているものを信じることを好むが、その疑問に提示される反実的な前提を無視している。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - The Instinctive Bias: Spurious Images lead to Hallucination in MLLMs [36.42188183017291]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
この効果を定量的に評価するために,スプリアス画像の幻覚レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。