論文の概要: Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs
- arxiv url: http://arxiv.org/abs/2402.07116v2
- Date: Sat, 10 Aug 2024 04:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 23:57:57.479503
- Title: Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs
- Title(参考訳): Q-Bench+: シングルイメージからペアへの低レベルビジョンに基づくマルチモーダル基礎モデルのベンチマーク
- Authors: Zicheng Zhang, Haoning Wu, Erli Zhang, Guangtao Zhai, Weisi Lin,
- Abstract要約: 低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
- 参考スコア(独自算出の注目度): 71.07108539262721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of Multi-modality Large Language Models (MLLMs) has navigated a paradigm shift in computer vision, moving towards versatile foundational models. However, evaluating MLLMs in low-level visual perception and understanding remains a yet-to-explore domain. To this end, we design benchmark settings to emulate human language responses related to low-level vision: the low-level visual perception (A1) via visual question answering related to low-level attributes (e.g. clarity, lighting); and the low-level visual description (A2), on evaluating MLLMs for low-level text descriptions. Furthermore, given that pairwise comparison can better avoid ambiguity of responses and has been adopted by many human experiments, we further extend the low-level perception-related question-answering and description evaluations of MLLMs from single images to image pairs. Specifically, for perception (A1), we carry out the LLVisionQA+ dataset, comprising 2,990 single images and 1,999 image pairs each accompanied by an open-ended question about its low-level features; for description (A2), we propose the LLDescribe+ dataset, evaluating MLLMs for low-level descriptions on 499 single images and 450 pairs. Additionally, we evaluate MLLMs on assessment (A3) ability, i.e. predicting score, by employing a softmax-based approach to enable all MLLMs to generate quantifiable quality ratings, tested against human opinions in 7 image quality assessment (IQA) datasets. With 24 MLLMs under evaluation, we demonstrate that several MLLMs have decent low-level visual competencies on single images, but only GPT-4V exhibits higher accuracy on pairwise comparisons than single image evaluations (like humans). We hope that our benchmark will motivate further research into uncovering and enhancing these nascent capabilities of MLLMs. Datasets will be available at https://github.com/Q-Future/Q-Bench.
- Abstract(参考訳): MLLM(Multi-modality Large Language Models)の急速な開発により、コンピュータビジョンのパラダイムシフトが進み、汎用的な基礎モデルへと移行した。
しかし、低レベルの視覚知覚と理解におけるMLLMの評価は、まだ明らかになっていない領域である。
この目的のために、低レベルな視覚に関する人間の言語応答をエミュレートするためのベンチマーク設定を、低レベルな属性(例えば、明度、明度)に関連する視覚的質問応答による低レベルな視覚知覚(A1)と、低レベルなテキスト記述のためのMLLMの評価に基づく低レベルな視覚記述(A2)を設計する。
さらに、対比較が応答のあいまいさを回避し、多くの人間実験で採用されていることを考慮し、MLLMの低レベルな認識関連質問応答と記述評価を単一画像から画像ペアに拡張する。
具体的には,2,990枚の画像と1,999枚の画像対からなるLLVisionQA+データセットについて,その低レベルな特徴に関するオープンな質問を伴って,LLVisionQA+データセット(A1)について述べるとともに,低レベルな499枚の画像と450枚の画像に対してMLLMを評価するLLDescribe+データセットを提案する。
さらに,画像品質評価(IQA)データセットを用いて,評価評価(A3)能力,すなわちスコアの予測を,すべてのMLLMが定量的な品質評価を生成できるように,ソフトマックスベースのアプローチを用いて評価する。
24個のMLLMを用いて、複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが単一の画像評価(例えば人間)よりもペア比較において高い精度を示す。
われわれのベンチマークは、MLLMのこれらの初期段階の能力の解明と強化に関するさらなる研究を動機付けることを願っている。
Datasetsはhttps://github.com/Q-Future/Q-Bench.comから入手できる。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文 参考訳(メタデータ) (2024-08-09T20:55:46Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。