論文の概要: MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of
Multimodal Large Language Models in Perception
- arxiv url: http://arxiv.org/abs/2401.07529v2
- Date: Mon, 26 Feb 2024 09:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:51:29.898200
- Title: MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of
Multimodal Large Language Models in Perception
- Title(参考訳): MM-SAP:マルチモーダル大規模言語モデルの認識における自己認識評価のための総合ベンチマーク
- Authors: Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng
Wang
- Abstract要約: MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。
これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
- 参考スコア(独自算出の注目度): 22.888797134331895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have
demonstrated exceptional capabilities in visual perception and understanding.
However, these models also suffer from hallucinations, which limit their
reliability as AI systems. We believe that these hallucinations are partially
due to the models' struggle with understanding what they can and cannot
perceive from images, a capability we refer to as self-awareness in perception.
Despite its importance, this aspect of MLLMs has been overlooked in prior
studies. In this paper, we aim to define and evaluate the self-awareness of
MLLMs in perception. To do this, we first introduce the knowledge quadrant in
perception, which helps define what MLLMs know and do not know about images.
Using this framework, we propose a novel benchmark, the Self-Awareness in
Perception for MLLMs (MM-SAP), specifically designed to assess this capability.
We apply MM-SAP to a variety of popular MLLMs, offering a comprehensive
analysis of their self-awareness and providing detailed insights. The
experiment results reveal that current MLLMs possess limited self-awareness
capabilities, pointing to a crucial area for future advancement in the
development of trustworthy MLLMs. Code and data are available at
https://github.com/YHWmz/MM-SAP.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、視覚知覚と理解において例外的な能力を示している。
しかし、これらのモデルは幻覚に悩まされ、AIシステムとしての信頼性が制限される。
これらの幻覚の一部は、モデルがイメージから理解でき、知覚できないことを理解するのに苦労しているためである、と我々は信じている。
その重要性にもかかわらず、MLLMのこの側面は以前の研究で見過ごされてきた。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
そこで我々はまず,MLLMが画像について知っていることや知らないことを定義する知識四分法を導入する。
本稿では,MLLM(MM-SAP)に対する自己認識の自己認識性(Self-Awareness in Perception for MLLMs)という新しいベンチマークを提案する。
MM-SAPを多種多様なMLLMに適用し、自己認識の包括的分析と詳細な洞察を提供する。
実験の結果,現在のMLLMは自己認識能力に限界があることが明らかとなり,信頼性の高いMLLMの開発に欠かせない領域であることが示唆された。
コードとデータはhttps://github.com/YHWmz/MM-SAPで公開されている。
関連論文リスト
- Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。
本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。
我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文 参考訳(メタデータ) (2024-08-16T09:52:02Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文 参考訳(メタデータ) (2024-02-07T12:28:32Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。