Fugu-MT 論文翻訳(概要): DARE: Diverse Visual Question Answering with Robustness Evaluation

論文の概要: DARE: Diverse Visual Question Answering with Robustness Evaluation

arxiv url: http://arxiv.org/abs/2409.18023v1
Date: Thu, 26 Sep 2024 16:31:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 22:26:48.146775
Title: DARE: Diverse Visual Question Answering with Robustness Evaluation
Title（参考訳）: DARE:ロバストネス評価による多様な視覚的質問応答
Authors: Hannah Sterz, Jonas Pfeiffer, Ivan Vulić,
Abstract要約: 視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
参考スコア（独自算出の注目度）: 16.87867803628065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Language Models (VLMs) extend remarkable capabilities of text-only large language models and vision-only models, and are able to learn from and process multi-modal vision-text input. While modern VLMs perform well on a number of standard image classification and image-text matching tasks, they still struggle with a number of crucial vision-language (VL) reasoning abilities such as counting and spatial reasoning. Moreover, while they might be very brittle to small variations in instructions and/or evaluation protocols, existing benchmarks fail to evaluate their robustness (or rather the lack of it). In order to couple challenging VL scenarios with comprehensive robustness evaluation, we introduce DARE, Diverse Visual Question Answering with Robustness Evaluation, a carefully created and curated multiple-choice VQA benchmark. DARE evaluates VLM performance on five diverse categories and includes four robustness-oriented evaluations based on the variations of: prompts, the subsets of answer options, the output format and the number of correct answers. Among a spectrum of other findings, we report that state-of-the-art VLMs still struggle with questions in most categories and are unable to consistently deliver their peak performance across the tested robustness evaluations. The worst case performance across the subsets of options is up to 34% below the performance in the standard case. The robustness of the open-source VLMs such as LLaVA 1.6 and Idefics2 cannot match the closed-source models such as GPT-4 and Gemini, but even the latter remain very brittle to different variations.
Abstract（参考訳）: 視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な能力を拡張し、マルチモーダルな視覚テキスト入力から学習し、処理することができる。現代のVLMは、多くの標準的な画像分類や画像テキストマッチングタスクでよく機能するが、カウントや空間推論といった重要な視覚言語(VL)推論能力に苦戦している。さらに、命令や評価プロトコルの小さなバリエーションに対して非常に脆弱な場合もありますが、既存のベンチマークではその堅牢性(あるいはそれの欠如)を評価することができません。包括的ロバストネス評価を伴うVLシナリオの課題に対処するため, DARE, Diverse Visual Question Answering with Robustness Evaluation, 慎重に作成, キュレートされた多重選択VQAベンチマークを紹介する。 DAREは、VLMのパフォーマンスを5つの多様なカテゴリで評価し、プロンプト、回答オプションのサブセット、出力フォーマット、正しい回答の数に基づいて、4つのロバストネス指向の評価を含む。現状のVLMは,多くのカテゴリにおいて問題に悩まされており,テストされたロバストネス評価において常にピーク性能を達成できないことが報告されている。オプションのサブセットにおける最悪のケースパフォーマンスは、標準ケースのパフォーマンスよりも最大で34%低い。 LLaVA 1.6 や Idefics2 のようなオープンソース VLM の堅牢性は GPT-4 や Gemini のようなクローズドソースモデルと一致しないが、後者でさえ異なるバリエーションに対して非常に脆弱である。

関連論文リスト

PARC: A Quantitative Framework Uncovering the Symmetries within Vision Language Models [17.522361689805724]
視覚言語モデル(VLM)は、ユーザーが作成したテキストプロンプトと視覚入力に応答する。 VLMがこの不安定性を様々なプロンプトに継承するかどうかを判断することが重要である。本稿では, PARC (Prompt Analysis via Reliability and agnostic) について紹介する。
論文参考訳（メタデータ） (2025-06-03T19:42:32Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
V-MAGEはMLLMの視覚的推論能力を評価するために設計されたゲームベースの評価フレームワークである。 V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark [0.8820880683910832]
視覚言語モデル(VLM)は、視覚質問応答(VQA)タスクにおいて強力な推論能力を示している。しかし、人間の意図、信念、精神状態などを推測するなど、心の理論(ToM)を遂行する能力は未熟である。 ToMタスクの様々なカテゴリにまたがってVLMの性能を評価するためのオープンな質問フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-28T02:26:32Z)
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering [28.045285777736876]
2つの重要な特徴を持つマルチモーダルなファクト検索ベンチマークであるVisualSimpleQAを紹介する。視覚的・言語的モダリティにおけるLVLMの合理化・分離評価を可能にする。 15個のLVLMの実験では、GPT-4oのような最先端のモデルでさえ、わずか60%以上の精度しか達成していない。
論文参考訳（メタデータ） (2025-03-09T07:25:32Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。 Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文参考訳（メタデータ） (2025-02-20T01:48:13Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types [0.9217021281095907]
ユーザエクスペリエンスを支援するために、VQA(Visual Question-Answering)がいくつかのアプリケーションにおいて重要なユースケースとなっている。本稿では,タスクタイプ,アプリケーションドメイン,知識タイプを付加した,確立されたVQAベンチマークから得られた新しいデータセットを提案する。また、GPT-4oを用いて開発されたマルチモーダル評価指標であるGoEvalを導入し、人間の判断と56.71%の相関係数を達成した。
論文参考訳（メタデータ） (2024-09-14T02:29:36Z)
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。 MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文参考訳（メタデータ） (2024-08-01T17:59:54Z)
AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
新興中国ビジョンランゲージモデル(VLM)の総合的アライメントベンチマークであるAlignMMBenchを紹介する。このベンチマークは、現実世界のシナリオと中国のインターネットソースから慎重にキュレートされ、3つのカテゴリにまたがる13の特定のタスクを含み、シングルターンとマルチターンの対話シナリオを含んでいる。評価パイプラインを容易にするために,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを提案する。
論文参考訳（メタデータ） (2024-06-13T16:30:14Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文参考訳（メタデータ） (2023-11-27T18:59:42Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。