論文の概要: Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs
- arxiv url: http://arxiv.org/abs/2406.18849v4
- Date: Mon, 24 Feb 2025 01:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:47:49.512594
- Title: Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs
- Title(参考訳): Dysca: LVLMの知覚能力を評価するための動的でスケーラブルなベンチマーク
- Authors: Jie Zhang, Zhongqi Wang, Mengqi Lei, Zheng Yuan, Bei Yan, Shiguang Shan, Xilin Chen,
- Abstract要約: Dyscaは、合成画像を利用してLVLMを評価するための動的でスケーラブルなベンチマークである。
51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。
Dyscaは、新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。
- 参考スコア(独自算出の注目度): 61.01278660925202
- License:
- Abstract: Currently many benchmarks have been proposed to evaluate the perception ability of the Large Vision-Language Models (LVLMs). However, most benchmarks conduct questions by selecting images from existing datasets, resulting in the potential data leakage. Besides, these benchmarks merely focus on evaluating LVLMs on the realistic style images and clean scenarios, leaving the multi-stylized images and noisy scenarios unexplored. In response to these challenges, we propose a dynamic and scalable benchmark named Dysca for evaluating LVLMs by leveraging synthesis images. Specifically, we leverage Stable Diffusion and design a rule-based method to dynamically generate novel images, questions and the corresponding answers. We consider 51 kinds of image styles and evaluate the perception capability in 20 subtasks. Moreover, we conduct evaluations under 4 scenarios (i.e., Clean, Corruption, Print Attacking and Adversarial Attacking) and 3 question types (i.e., Multi-choices, True-or-false and Free-form). Thanks to the generative paradigm, Dysca serves as a scalable benchmark for easily adding new subtasks and scenarios. A total of 24 advanced open-source LVLMs and 2 close-source LVLMs are evaluated on Dysca, revealing the drawbacks of current LVLMs. The benchmark is released at https://github.com/Robin-WZQ/Dysca.
- Abstract(参考訳): 現在、LVLM(Large Vision-Language Models)の知覚能力を評価するために多くのベンチマークが提案されている。
しかしながら、ほとんどのベンチマークでは、既存のデータセットからイメージを選択して質問を行うため、潜在的なデータリークが発生する可能性がある。
さらに、これらのベンチマークは、現実的なスタイルのイメージとクリーンなシナリオに基づいてLVLMを評価することに集中しており、マルチスティル化されたイメージとノイズの多いシナリオは未探索のままである。
これらの課題に対応するために、合成画像を利用してLVLMを評価するための動的でスケーラブルなDyscaベンチマークを提案する。
具体的には、安定拡散を利用して、新しい画像、質問、および対応する回答を動的に生成するルールベースの手法を設計する。
51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。
さらに,4つのシナリオ (クリーン, 腐敗, 印刷攻撃, 逆攻撃) と3つの質問タイプ (マルチチョイス, 真偽, フリーフォーム) で評価を行った。
生成パラダイムのおかげで、Dyscaは新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。
現在のLVLMの欠点を明らかにするため、Dyscaでは、24の高度なオープンソースLVLMと2つのオープンソースLVLMが評価されている。
ベンチマークはhttps://github.com/Robin-WZQ/Dysca.comで公開されている。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。