論文の概要: Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision
- arxiv url: http://arxiv.org/abs/2309.14181v3
- Date: Mon, 1 Jan 2024 14:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:47:26.327957
- Title: Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision
- Title(参考訳): Q-Bench: 低レベルのビジョンに基づく汎用基盤モデルのベンチマーク
- Authors: Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao,
Annan Wang, Chunyi Li, Wenxiu Sun, Qiong Yan, Guangtao Zhai, Weisi Lin
- Abstract要約: MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
- 参考スコア(独自算出の注目度): 85.6008224440157
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid evolution of Multi-modality Large Language Models (MLLMs) has
catalyzed a shift in computer vision from specialized models to general-purpose
foundation models. Nevertheless, there is still an inadequacy in assessing the
abilities of MLLMs on low-level visual perception and understanding. To address
this gap, we present Q-Bench, a holistic benchmark crafted to systematically
evaluate potential abilities of MLLMs on three realms: low-level visual
perception, low-level visual description, and overall visual quality
assessment. a) To evaluate the low-level perception ability, we construct the
LLVisionQA dataset, consisting of 2,990 diverse-sourced images, each equipped
with a human-asked question focusing on its low-level attributes. We then
measure the correctness of MLLMs on answering these questions. b) To examine
the description ability of MLLMs on low-level information, we propose the
LLDescribe dataset consisting of long expert-labelled golden low-level text
descriptions on 499 images, and a GPT-involved comparison pipeline between
outputs of MLLMs and the golden descriptions. c) Besides these two tasks, we
further measure their visual quality assessment ability to align with human
opinion scores. Specifically, we design a softmax-based strategy that enables
MLLMs to predict quantifiable quality scores, and evaluate them on various
existing image quality assessment (IQA) datasets. Our evaluation across the
three abilities confirms that MLLMs possess preliminary low-level visual
skills. However, these skills are still unstable and relatively imprecise,
indicating the need for specific enhancements on MLLMs towards these abilities.
We hope that our benchmark can encourage the research community to delve deeper
to discover and enhance these untapped potentials of MLLMs. Project Page:
https://q-future.github.io/Q-Bench.
- Abstract(参考訳): MLLM(Multi-modality Large Language Models)の急速な進化は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを引き起こした。
それでも、低レベルの視覚知覚と理解においてMLLMの能力を評価するにはまだ不十分である。
このギャップに対処するために、我々は3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視覚品質評価)でMLLMの潜在能力を体系的に評価する総合的なベンチマークであるQ-Benchを紹介する。
a) 低レベルの知覚能力を評価するために,2,990個の多様なソース画像からなるLLVisionQAデータセットを構築し,その低レベルの属性に着目した人間に質問する。
次に,これらの質問に対するMLLMの正当性を測定した。
b) MLLMの低レベル情報に基づく記述能力を検討するため, 499 画像上の長大な専門家による黄金の低レベルテキスト記述からなるLLDescribeデータセットと, MLLMの出力と黄金の記述との GPT による比較パイプラインを提案する。
c) この2つの課題に加えて, 人間の意見スコアに合わせる視覚的品質評価能力も測定した。
具体的には、MLLMが定量品質スコアを予測できるソフトマックスベースの戦略を設計し、既存の画像品質評価(IQA)データセットで評価する。
評価の結果,MLLMは低レベルの視覚能力を有することが明らかとなった。
しかし、これらのスキルはまだ不安定で比較的不正確であり、これらの能力に対するMLLMの具体的な強化の必要性を示している。
私たちのベンチマークは、MLLMの未解決の可能性を発見し、強化するために、研究コミュニティをより深く掘り下げることを奨励するものです。
プロジェクトページ: https://q-future.github.io/q-bench。
関連論文リスト
- A Benchmark for Multi-modal Foundation Models on Low-level Vision: from
Single Images to Pairs [76.24832641793621]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with
Vision-Language Benchmark [43.07531186686455]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonsにおいて顕著な人間ライクな識別を示す一方で, Scoring Evaluation や Batch Ranking のタスクにおいて, 人間の嗜好とは大きく異なっていることを明らかにした。
論文 参考訳(メタデータ) (2024-02-07T12:28:32Z) - MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of
Multimodal Large Language Models in Perception [22.888797134331895]
MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。
これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
論文 参考訳(メタデータ) (2024-01-15T08:19:22Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - Q-Boost: On Visual Quality Assessment Ability of Low-level
Multi-Modality Foundation Models [80.79438689784958]
画像品質評価(IQA)および映像品質評価(VQA)タスクにおける低レベルMLLMの強化を目的とした戦略であるQ-Boostを紹介する。
Q-Boostは$neutral$プロンプトを通じてミドルグラウンドのアプローチを導入し、よりバランスよく詳細な評価を可能にする。
実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。
論文 参考訳(メタデータ) (2023-12-23T17:02:25Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。