論文の概要: Vision-Language Models Can't See the Obvious
- arxiv url: http://arxiv.org/abs/2507.04741v1
- Date: Mon, 07 Jul 2025 08:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.322616
- Title: Vision-Language Models Can't See the Obvious
- Title(参考訳): ヴィジュアル・ランゲージのモデルでは見当たらない
- Authors: Yasser Dahou, Ngoc Dung Huynh, Phuc H. Le-Khac, Wamiq Reyaz Para, Ankit Singh, Sanath Narayan,
- Abstract要約: このベンチマークでは、人間の視覚処理の基本となる色、強度、方向などの低レベルな特徴に焦点を当てている。
私たちのSalBenchは、シーン内の珍しい、珍しい、予期せぬ要素をハイライトし、自然に人間の注意を引き付けるイメージで構成されています。
Odd-One-Out Detection, Referring Odd-One-Out, Visual Referring Odd-One-Outという,LVLMの知覚能力を評価するための3つの新しいタスクで構成されている。
- 参考スコア(独自算出の注目度): 8.20194968017781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Saliency Benchmark (SalBench), a novel benchmark designed to assess the capability of Large Vision-Language Models (LVLM) in detecting visually salient features that are readily apparent to humans, such as a large circle amidst a grid of smaller ones. This benchmark focuses on low-level features including color, intensity, and orientation, which are fundamental to human visual processing. Our SalBench consists of images that highlight rare, unusual, or unexpected elements within scenes, and naturally draw human attention. It comprises three novel tasks for evaluating the perceptual capabilities of LVLM: Odd-One-Out Detection, Referring Odd-One-Out, and Visual Referring Odd-One-Out. We perform a comprehensive evaluation of state-of-the-art LVLM using SalBench and our findings reveal a surprising limitation: LVLM struggle to identify seemingly obvious visual anomalies, with even the advanced GPT-4o achieving only 47.6\% accuracy on such a simple task. SalBench will be an important step in measuring the capabilities of LVLM that align with the subtle definition of human attention.
- Abstract(参考訳): そこで我々は,LVLM(Large Vision-Language Models)の視覚的に有意な特徴を検知する能力を評価するための新しいベンチマークであるSalBench(SalBench)を提案する。
このベンチマークでは、人間の視覚処理の基本となる色、強度、方向などの低レベルな特徴に焦点を当てている。
私たちのSalBenchは、シーン内の珍しい、珍しい、予期せぬ要素をハイライトし、自然に人間の注意を引き付けるイメージで構成されています。
Odd-One-Out Detection, Referring Odd-One-Out, Visual Referring Odd-One-Outという,LVLMの知覚能力を評価するための3つの新しいタスクで構成されている。
われわれはSalBenchを用いて最先端のLVLMの総合的な評価を行い,この結果に驚くべき限界があることが判明した: LVLMは目に見える視覚異常の特定に苦慮し,高度なGPT-4oでも47.6%の精度しか達成できなかった。
SalBenchは、人間の注意を微妙に定義するLVLMの能力を測定するための重要なステップとなる。
関連論文リスト
- Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法
そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文 参考訳(メタデータ) (2025-06-24T11:03:10Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。
人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。