論文の概要: MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of
Multimodal Large Language Models in Perception
- arxiv url: http://arxiv.org/abs/2401.07529v2
- Date: Mon, 26 Feb 2024 09:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:51:29.898200
- Title: MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of
Multimodal Large Language Models in Perception
- Title(参考訳): MM-SAP:マルチモーダル大規模言語モデルの認識における自己認識評価のための総合ベンチマーク
- Authors: Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng
Wang
- Abstract要約: MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。
これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
- 参考スコア(独自算出の注目度): 22.888797134331895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have
demonstrated exceptional capabilities in visual perception and understanding.
However, these models also suffer from hallucinations, which limit their
reliability as AI systems. We believe that these hallucinations are partially
due to the models' struggle with understanding what they can and cannot
perceive from images, a capability we refer to as self-awareness in perception.
Despite its importance, this aspect of MLLMs has been overlooked in prior
studies. In this paper, we aim to define and evaluate the self-awareness of
MLLMs in perception. To do this, we first introduce the knowledge quadrant in
perception, which helps define what MLLMs know and do not know about images.
Using this framework, we propose a novel benchmark, the Self-Awareness in
Perception for MLLMs (MM-SAP), specifically designed to assess this capability.
We apply MM-SAP to a variety of popular MLLMs, offering a comprehensive
analysis of their self-awareness and providing detailed insights. The
experiment results reveal that current MLLMs possess limited self-awareness
capabilities, pointing to a crucial area for future advancement in the
development of trustworthy MLLMs. Code and data are available at
https://github.com/YHWmz/MM-SAP.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、視覚知覚と理解において例外的な能力を示している。
しかし、これらのモデルは幻覚に悩まされ、AIシステムとしての信頼性が制限される。
これらの幻覚の一部は、モデルがイメージから理解でき、知覚できないことを理解するのに苦労しているためである、と我々は信じている。
その重要性にもかかわらず、MLLMのこの側面は以前の研究で見過ごされてきた。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
そこで我々はまず,MLLMが画像について知っていることや知らないことを定義する知識四分法を導入する。
本稿では,MLLM(MM-SAP)に対する自己認識の自己認識性(Self-Awareness in Perception for MLLMs)という新しいベンチマークを提案する。
MM-SAPを多種多様なMLLMに適用し、自己認識の包括的分析と詳細な洞察を提供する。
実験の結果,現在のMLLMは自己認識能力に限界があることが明らかとなり,信頼性の高いMLLMの開発に欠かせない領域であることが示唆された。
コードとデータはhttps://github.com/YHWmz/MM-SAPで公開されている。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - The Instinctive Bias: Spurious Images lead to Hallucination in MLLMs [36.42188183017291]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
この効果を定量的に評価するために,スプリアス画像の幻覚レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language
Models [75.85429963948769]
最初の総合的MLLM評価ベンチマークMMEを示す。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
総計30個のMLLMをMMEで総合的に評価した。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。