論文の概要: Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs
- arxiv url: http://arxiv.org/abs/2406.18849v1
- Date: Thu, 27 Jun 2024 02:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:27:31.061873
- Title: Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs
- Title(参考訳): Dysca: LVLMの知覚能力を評価するための動的でスケーラブルなベンチマーク
- Authors: Jie Zhang, Zhongqi Wang, Mengqi Lei, Zheng Yuan, Bei Yan, Shiguang Shan, Xilin Chen,
- Abstract要約: Dyscaは、合成画像を利用してLVLMを評価するための動的でスケーラブルなベンチマークである。
51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。
Dyscaは、新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。
- 参考スコア(独自算出の注目度): 61.01278660925202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently many benchmarks have been proposed to evaluate the perception ability of the Large Vision-Language Models (LVLMs). However, most benchmarks conduct questions by selecting images from existing datasets, resulting in the potential data leakage. Besides, these benchmarks merely focus on evaluating LVLMs on the realistic style images and clean scenarios, leaving the multi-stylized images and noisy scenarios unexplored. In response to these challenges, we propose a dynamic and scalable benchmark named Dysca for evaluating LVLMs by leveraging synthesis images. Specifically, we leverage Stable Diffusion and design a rule-based method to dynamically generate novel images, questions and the corresponding answers. We consider 51 kinds of image styles and evaluate the perception capability in 20 subtasks. Moreover, we conduct evaluations under 4 scenarios (i.e., Clean, Corruption, Print Attacking and Adversarial Attacking) and 3 question types (i.e., Multi-choices, True-or-false and Free-form). Thanks to the generative paradigm, Dysca serves as a scalable benchmark for easily adding new subtasks and scenarios. A total of 8 advanced open-source LVLMs with 10 checkpoints are evaluated on Dysca, revealing the drawbacks of current LVLMs. The benchmark is released in \url{https://github.com/Benchmark-Dysca/Dysca}.
- Abstract(参考訳): 現在、LVLM(Large Vision-Language Models)の知覚能力を評価するために多くのベンチマークが提案されている。
しかしながら、ほとんどのベンチマークでは、既存のデータセットからイメージを選択して質問を行うため、潜在的なデータリークが発生する可能性がある。
さらに、これらのベンチマークは、現実的なスタイルのイメージとクリーンなシナリオに基づいてLVLMを評価することに集中しており、マルチスティル化されたイメージとノイズの多いシナリオは未探索のままである。
これらの課題に対応するために、合成画像を利用してLVLMを評価するための動的でスケーラブルなDyscaベンチマークを提案する。
具体的には、安定拡散を利用して、新しい画像、質問、および対応する回答を動的に生成するルールベースの手法を設計する。
51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。
さらに,4つのシナリオ (クリーン, 腐敗, 印刷攻撃, 逆攻撃) と3つの質問タイプ (マルチチョイス, 真偽, フリーフォーム) で評価を行った。
生成パラダイムのおかげで、Dyscaは新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。
現在のLVLMの欠点を明らかにするため、Dysca上で10個のチェックポイントを持つ8つの高度なオープンソースLVLMを評価した。
ベンチマークは \url{https://github.com/Benchmark-Dysca/Dysca} でリリースされる。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - Few-Shot Image Classification Benchmarks are Too Far From Reality: Build
Back Better with Semantic Task Sampling [4.855663359344748]
デンマークのFungi 2020データセットを用いたFew-Shot画像分類のための新しいベンチマークを提案する。
本ベンチマークでは,様々な微粒度を用いた多種多様な評価課題を提案する。
本実験は,タスクの難易度とクラス間の意味的類似度との間に相関関係を生じさせる。
論文 参考訳(メタデータ) (2022-05-10T20:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。