論文の概要: Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.21523v1
- Date: Thu, 23 Apr 2026 10:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.447683
- Title: Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models
- Title(参考訳): 視線・視線モデルにおける盲点の発見
- Authors: Mohammed Safi Ur Rahman Khan, Sanjay Suryanarayanan, Tushar Anand, Mitesh M. Khapra,
- Abstract要約: I2TタスクとT2Iタスクの両方で評価器VLMの信頼性を体系的に評価する。
我々は,物体の幻覚,空間的推論,事実的接地,視覚的忠実度など,重要な誤り次元に沿って出力品質を低下させる摂動を導入する。
- 参考スコア(独自算出の注目度): 18.001586760420484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question answering, and text-to-image (T2I) generation tasks. Despite this growing reliance, the reliability of these Evaluator VLMs remains under explored. In this work, we systematically evaluate the reliability of Evaluator VLMs across both I2T and T2I tasks. We introduce targeted perturbations that degrade output quality along key error dimensions, including object hallucinations, spatial reasoning, factual grounding, and visual fidelity. These perturbations test whether Evaluator VLMs can reliably account for these quality degrading errors in their evaluations. Using a comprehensive benchmark of over 4000 perturbed instances spanning 40 perturbation dimensions, we evaluate 4 prominent VLMs using single-answer scoring, pairwise comparison, and reference-guided paradigms. Our findings reveal that current VLM evaluators exhibit substantial blind spots: they often fail to detect perturbed outputs - in some cases exceeding 50%, struggle particularly with fine-grained compositional and spatial errors, and are often insensitive to hallucinated content that contradicts the input image. Pairwise comparison proves more reliable, though failure rates persist. These results highlight the unreliable nature of current Evaluator VLMs and urge caution in their deployment for benchmarking and development decisions. Code and data have been made publicly available.
- Abstract(参考訳): VLM(Large Vision-Language Models)は、視覚的質問応答やテキスト・トゥ・イメージ(T2I)生成タスクなど、他のモデルの出力を評価するために使われることが多い。
このような信頼性の高まりにもかかわらず、これらの評価器VLMの信頼性はまだ検討中である。
本研究では,評価用VLMの信頼性をI2TタスクとT2Iタスクの両方で体系的に評価する。
本研究では,物体の幻覚,空間的推論,事実的グラウンド,視覚的忠実度など,重要な誤り次元に沿って出力品質を低下させるターゲット摂動を導入する。
これらの摂動は、評価器VLMが評価においてこれらの品質劣化エラーを確実に考慮できるかどうかをテストする。
40の摂動次元にまたがる4000以上の摂動インスタンスの総合的なベンチマークを用いて、単問合せスコア、ペア比較、参照誘導パラダイムを用いて4つの顕著なVLMを評価する。
50%を超える場合、特に微細な構成誤差や空間誤差に苦しむ場合があり、入力画像に矛盾する幻覚的内容に敏感である場合が多い。
ペアワイズ比較は、失敗率が持続するにもかかわらず、より信頼性が高いことを証明します。
これらの結果は、現在の評価VLMの信頼性の低い性質を浮き彫りにして、ベンチマークや開発決定のデプロイに注意を促します。
コードとデータは公開されています。
関連論文リスト
- VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models [64.56065206447788]
ビジョン言語モデル(VLM)は、標準の高品質なデータセット上で強力なパフォーマンスを達成する。
VLM-RobustBenchはノイズ、ブラー、天気、デジタル、幾何学にまたがる49種類の拡張型にまたがるベンチマークである。
低重度空間摂動は、視覚的に重度な光度劣化よりも、しばしば性能を低下させる。
論文 参考訳(メタデータ) (2026-03-06T10:58:02Z) - [De|Re]constructing VLMs' Reasoning in Counting [2.1856941852799134]
制御された実験条件下での計数作業における7つの最先端ビジョンランゲージモデル(VLM)の推論技術について検討した。
レイヤワイズ解析により、エラーは最終層表現の出力空間への誤ったマッピングによるものであることが明らかになった。
対象とするトレーニングでは,出力層のみの微調整により,最大21%の精度が向上した。
論文 参考訳(メタデータ) (2025-10-22T13:08:47Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models [6.9060054915724]
言語と視覚言語モデル(LLMs/VLMs)は、人間のようなテキストを生成し、画像を理解する能力によってAIの分野に革命をもたらしたが、信頼性の確保は不可欠である。
本稿では,LLM (GPT4, GPT-3.5, LLaMA2, PaLM2) と VLM (GPT4V, Gemini Pro Vision) の言語的不確実性を評価することを目的とした。
本稿では,難解なクエリやオブジェクトカウントによるVLM機能テストを目的とした日本語不確実シーンデータセットと,誤校正の方向を測定するNet Errorデータセットを提案する。
論文 参考訳(メタデータ) (2024-05-05T12:51:38Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。