論文の概要: A Benchmark for Multi-modal Foundation Models on Low-level Vision: from
Single Images to Pairs
- arxiv url: http://arxiv.org/abs/2402.07116v1
- Date: Sun, 11 Feb 2024 06:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:47:15.525299
- Title: A Benchmark for Multi-modal Foundation Models on Low-level Vision: from
Single Images to Pairs
- Title(参考訳): 低レベル視覚におけるマルチモーダル基礎モデルのベンチマーク:単一画像からペアへ
- Authors: Zicheng Zhang, Haoning Wu, Erli Zhang, Guangtao Zhai, Weisi Lin
- Abstract要約: 低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
- 参考スコア(独自算出の注目度): 76.24832641793621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of Multi-modality Large Language Models (MLLMs) has
navigated a paradigm shift in computer vision, moving towards versatile
foundational models. However, evaluating MLLMs in low-level visual perception
and understanding remains a yet-to-explore domain. To this end, we design
benchmark settings to emulate human language responses related to low-level
vision: the low-level visual perception (A1) via visual question answering
related to low-level attributes (e.g. clarity, lighting); and the low-level
visual description (A2), on evaluating MLLMs for low-level text descriptions.
Furthermore, given that pairwise comparison can better avoid ambiguity of
responses and has been adopted by many human experiments, we further extend the
low-level perception-related question-answering and description evaluations of
MLLMs from single images to image pairs. Specifically, for perception (A1), we
carry out the LLVisionQA+ dataset, comprising 2,990 single images and 1,999
image pairs each accompanied by an open-ended question about its low-level
features; for description (A2), we propose the LLDescribe+ dataset, evaluating
MLLMs for low-level descriptions on 499 single images and 450 pairs.
Additionally, we evaluate MLLMs on assessment (A3) ability, i.e. predicting
score, by employing a softmax-based approach to enable all MLLMs to generate
quantifiable quality ratings, tested against human opinions in 7 image quality
assessment (IQA) datasets. With 24 MLLMs under evaluation, we demonstrate that
several MLLMs have decent low-level visual competencies on single images, but
only GPT-4V exhibits higher accuracy on pairwise comparisons than single image
evaluations (like humans). We hope that our benchmark will motivate further
research into uncovering and enhancing these nascent capabilities of MLLMs.
Datasets will be available at https://github.com/Q-Future/Q-Bench.
- Abstract(参考訳): MLLM(Multi-modality Large Language Models)の急速な開発により、コンピュータビジョンのパラダイムシフトが進み、汎用的な基礎モデルへと移行した。
しかし、低レベルの視覚知覚と理解におけるmllmの評価は未だ未解決領域である。
そこで我々は,低レベルテキスト記述のためのmllmの評価について,低レベル視覚認識 (a1) と低レベルの属性 (明快さ,照明など) に関連する視覚質問応答 (a1) と低レベル視覚記述 (a2) をエミュレートするベンチマーク設定を設計する。
さらに、対比較が応答のあいまいさを回避し、多くの人間実験で採用されていることを踏まえ、MLLMの低レベルな認識関連質問応答と記述評価を単一の画像から画像ペアに拡張する。
具体的には,2,990枚の画像と1,999枚の画像対からなるLLVisionQA+データセットについて,その低レベルな特徴に関するオープンな質問を伴って,LLVisionQA+データセット(A1)について述べるとともに,低レベルな499枚の画像と450枚の画像に対してMLLMを評価するLLDescribe+データセットを提案する。
さらに,画像品質評価(IQA)データセットを用いて,評価評価(A3)能力,すなわちスコアの予測を,すべてのMLLMが定量的な品質評価を生成できるように,ソフトマックスベースのアプローチを用いて評価する。
24個のMLLMを用いて、複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが単一の画像評価(例えば人間)よりも高い比較精度を示す。
われわれのベンチマークは、MLLMのこれらの初期段階の能力の解明と強化に関するさらなる研究を動機付けることを願っている。
Datasetsはhttps://github.com/Q-Future/Q-Bench.comから入手できる。
関連論文リスト
- Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - The Instinctive Bias: Spurious Images lead to Hallucination in MLLMs [36.42188183017291]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
この効果を定量的に評価するために,スプリアス画像の幻覚レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。