論文の概要: ColorBlindnessEval: Can Vision-Language Models Pass Color Blindness Tests?
- arxiv url: http://arxiv.org/abs/2509.19070v1
- Date: Tue, 23 Sep 2025 14:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.891885
- Title: ColorBlindnessEval: Can Vision-Language Models Pass Color Blindness Tests?
- Title(参考訳): ColorBlindnessEval:視覚言語モデルは色盲検をパスできるか?
- Authors: Zijian Ling, Han Zhang, Yazhuo Zhou, Jiahao Cui,
- Abstract要約: そこで本論文では,視覚的対向シナリオにおける視覚言語モデル(VLM)の堅牢性を評価するための新しいベンチマークであるColorBlindnessEvalを提案する。
本データセットは,0から99までの色の組み合わせを特徴とする石原様画像500枚からなる。
yes/Noとopen-endedのプロンプトを用いて9つのVLMを評価し,そのパフォーマンスを人間の参加者と比較した。
- 参考スコア(独自算出の注目度): 3.7113284199760552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents ColorBlindnessEval, a novel benchmark designed to evaluate the robustness of Vision-Language Models (VLMs) in visually adversarial scenarios inspired by the Ishihara color blindness test. Our dataset comprises 500 Ishihara-like images featuring numbers from 0 to 99 with varying color combinations, challenging VLMs to accurately recognize numerical information embedded in complex visual patterns. We assess 9 VLMs using Yes/No and open-ended prompts and compare their performance with human participants. Our experiments reveal limitations in the models' ability to interpret numbers in adversarial contexts, highlighting prevalent hallucination issues. These findings underscore the need to improve the robustness of VLMs in complex visual environments. ColorBlindnessEval serves as a valuable tool for benchmarking and improving the reliability of VLMs in real-world applications where accuracy is critical.
- Abstract(参考訳): 本論文は, 石原色覚検査に触発された視覚対向シナリオにおける視覚言語モデル(VLM)の頑健性を評価するための新しいベンチマークであるColorBlindnessEvalを提案する。
我々のデータセットは、0から99までの数字を色の組み合わせで表現した500枚の石原画像で構成され、複雑な視覚パターンに埋め込まれた数値情報を正確に認識するためにVLMに挑戦する。
yes/Noとopen-endedのプロンプトを用いて9つのVLMを評価し,そのパフォーマンスを人間の参加者と比較した。
実験の結果, 逆境における数解釈能力の限界が明らかとなり, 幻覚の問題が浮き彫りになった。
これらの結果は,複雑な視覚環境下でのVLMの堅牢性向上の必要性を浮き彫りにした。
ColorBlindnessEvalは、精度が重要な実世界のアプリケーションにおいて、VLMの信頼性をベンチマークし、改善するための貴重なツールである。
関連論文リスト
- ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness [23.857004537384]
視覚言語モデル(VLM)が人間の色を知覚し、理解し、活用できるかどうかは不明である。
本稿では,色理解におけるVLMの性能を評価するベンチマークであるColorBenchを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:36:26Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models [19.291697178628546]
ビジョン言語モデル(VLM)は、様々なベンチマークで有望な推論能力を示している。
本研究では,VLMがどのようにイメージを知覚するかを調べるために,視線検査プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-23T07:15:29Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。