Fugu-MT 論文翻訳(概要): MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception

論文の概要: MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception

arxiv url: http://arxiv.org/abs/2401.07529v2
Date: Mon, 26 Feb 2024 09:28:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 18:51:29.898200
Title: MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception
Title（参考訳）: MM-SAP:マルチモーダル大規模言語モデルの認識における自己認識評価のための総合ベンチマーク
Authors: Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng Wang
Abstract要約: MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
参考スコア（独自算出の注目度）: 22.888797134331895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in visual perception and understanding. However, these models also suffer from hallucinations, which limit their reliability as AI systems. We believe that these hallucinations are partially due to the models' struggle with understanding what they can and cannot perceive from images, a capability we refer to as self-awareness in perception. Despite its importance, this aspect of MLLMs has been overlooked in prior studies. In this paper, we aim to define and evaluate the self-awareness of MLLMs in perception. To do this, we first introduce the knowledge quadrant in perception, which helps define what MLLMs know and do not know about images. Using this framework, we propose a novel benchmark, the Self-Awareness in Perception for MLLMs (MM-SAP), specifically designed to assess this capability. We apply MM-SAP to a variety of popular MLLMs, offering a comprehensive analysis of their self-awareness and providing detailed insights. The experiment results reveal that current MLLMs possess limited self-awareness capabilities, pointing to a crucial area for future advancement in the development of trustworthy MLLMs. Code and data are available at https://github.com/YHWmz/MM-SAP.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の最近の進歩は、視覚知覚と理解において例外的な能力を示している。しかし、これらのモデルは幻覚に悩まされ、AIシステムとしての信頼性が制限される。これらの幻覚の一部は、モデルがイメージから理解でき、知覚できないことを理解するのに苦労しているためである、と我々は信じている。その重要性にもかかわらず、MLLMのこの側面は以前の研究で見過ごされてきた。本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。そこで我々はまず,MLLMが画像について知っていることや知らないことを定義する知識四分法を導入する。本稿では,MLLM(MM-SAP)に対する自己認識の自己認識性(Self-Awareness in Perception for MLLMs)という新しいベンチマークを提案する。 MM-SAPを多種多様なMLLMに適用し、自己認識の包括的分析と詳細な洞察を提供する。実験の結果,現在のMLLMは自己認識能力に限界があることが明らかとなり,信頼性の高いMLLMの開発に欠かせない領域であることが示唆された。コードとデータはhttps://github.com/YHWmz/MM-SAPで公開されている。

関連論文リスト

MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs [11.532430076027554]
我々はMLLMが画像に関する質問に答える際に、小さな視覚的詳細を大きなものと同じくらい効果的に知覚できるかどうかを検討する。本研究では,MLLM自体の内部知識を活用する学習自由な視覚介入手法を提案する。
論文参考訳（メタデータ） (2025-02-24T18:54:40Z)
Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文参考訳（メタデータ） (2024-09-15T14:38:29Z)
A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文参考訳（メタデータ） (2024-08-16T09:52:02Z)
Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。この制限に寄与できる4つの独立した要因を特定します。オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文参考訳（メタデータ） (2024-02-12T03:04:42Z)
MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文参考訳（メタデータ） (2024-02-07T12:28:32Z)
AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文参考訳（メタデータ） (2024-01-16T10:58:07Z)
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。 Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文参考訳（メタデータ） (2023-09-25T14:43:43Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。