Fugu-MT 論文翻訳(概要): Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs

論文の概要: Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs

arxiv url: http://arxiv.org/abs/2406.18849v1
Date: Thu, 27 Jun 2024 02:40:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 15:27:31.061873
Title: Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs
Title（参考訳）: Dysca: LVLMの知覚能力を評価するための動的でスケーラブルなベンチマーク
Authors: Jie Zhang, Zhongqi Wang, Mengqi Lei, Zheng Yuan, Bei Yan, Shiguang Shan, Xilin Chen,
Abstract要約: Dyscaは、合成画像を利用してLVLMを評価するための動的でスケーラブルなベンチマークである。 51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。 Dyscaは、新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。
参考スコア（独自算出の注目度）: 61.01278660925202
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Currently many benchmarks have been proposed to evaluate the perception ability of the Large Vision-Language Models (LVLMs). However, most benchmarks conduct questions by selecting images from existing datasets, resulting in the potential data leakage. Besides, these benchmarks merely focus on evaluating LVLMs on the realistic style images and clean scenarios, leaving the multi-stylized images and noisy scenarios unexplored. In response to these challenges, we propose a dynamic and scalable benchmark named Dysca for evaluating LVLMs by leveraging synthesis images. Specifically, we leverage Stable Diffusion and design a rule-based method to dynamically generate novel images, questions and the corresponding answers. We consider 51 kinds of image styles and evaluate the perception capability in 20 subtasks. Moreover, we conduct evaluations under 4 scenarios (i.e., Clean, Corruption, Print Attacking and Adversarial Attacking) and 3 question types (i.e., Multi-choices, True-or-false and Free-form). Thanks to the generative paradigm, Dysca serves as a scalable benchmark for easily adding new subtasks and scenarios. A total of 8 advanced open-source LVLMs with 10 checkpoints are evaluated on Dysca, revealing the drawbacks of current LVLMs. The benchmark is released in \url{https://github.com/Benchmark-Dysca/Dysca}.
Abstract（参考訳）: 現在、LVLM(Large Vision-Language Models)の知覚能力を評価するために多くのベンチマークが提案されている。しかしながら、ほとんどのベンチマークでは、既存のデータセットからイメージを選択して質問を行うため、潜在的なデータリークが発生する可能性がある。さらに、これらのベンチマークは、現実的なスタイルのイメージとクリーンなシナリオに基づいてLVLMを評価することに集中しており、マルチスティル化されたイメージとノイズの多いシナリオは未探索のままである。これらの課題に対応するために、合成画像を利用してLVLMを評価するための動的でスケーラブルなDyscaベンチマークを提案する。具体的には、安定拡散を利用して、新しい画像、質問、および対応する回答を動的に生成するルールベースの手法を設計する。 51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。さらに,4つのシナリオ (クリーン, 腐敗, 印刷攻撃, 逆攻撃) と3つの質問タイプ (マルチチョイス, 真偽, フリーフォーム) で評価を行った。生成パラダイムのおかげで、Dyscaは新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。現在のLVLMの欠点を明らかにするため、Dysca上で10個のチェックポイントを持つ8つの高度なオープンソースLVLMを評価した。ベンチマークは \url{https://github.com/Benchmark-Dysca/Dysca} でリリースされる。

関連論文リスト

BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。合成画像のプロシージャ生成を用いて視覚特性の制御を行う。この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文参考訳（メタデータ） (2025-06-05T12:43:10Z)
TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images [1.8668361563848481]
TDBenchは、トップダウン画像理解におけるVLM(Vision-Language Models)の包括的なベンチマークである。画像理解の10つの評価次元にまたがる視覚的質問応答対で構成されている。現実のシナリオでは一般的に発生するが、探索は少ない4つのケーススタディを実行します。
論文参考訳（メタデータ） (2025-04-01T19:01:13Z)
Are Large Vision Language Models Good Game Players? [25.49713745405194]
大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方について理解と推論において顕著な能力を示した。既存のLVLMの評価手法は、主にVisual Question Answeringのようなベンチマークに基づいており、LVLMの能力の全範囲を捉えていないことが多い。構造化環境におけるLVLMの認知・推論スキルを総合的に評価するためのゲームベース評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T07:29:03Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文参考訳（メタデータ） (2024-10-17T01:19:18Z)
DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文参考訳（メタデータ） (2024-09-26T16:31:50Z)
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。 MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。 MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文参考訳（メタデータ） (2024-06-17T17:59:47Z)
Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文参考訳（メタデータ） (2024-03-29T17:59:34Z)
Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文参考訳（メタデータ） (2024-02-11T06:44:11Z)
Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。 CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文参考訳（メタデータ） (2023-12-22T07:42:00Z)
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文参考訳（メタデータ） (2023-06-15T16:39:24Z)
Few-Shot Image Classification Benchmarks are Too Far From Reality: Build Back Better with Semantic Task Sampling [4.855663359344748]
デンマークのFungi 2020データセットを用いたFew-Shot画像分類のための新しいベンチマークを提案する。本ベンチマークでは,様々な微粒度を用いた多種多様な評価課題を提案する。本実験は,タスクの難易度とクラス間の意味的類似度との間に相関関係を生じさせる。
論文参考訳（メタデータ） (2022-05-10T20:25:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。