論文の概要: VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes
- arxiv url: http://arxiv.org/abs/2509.25339v2
- Date: Wed, 01 Oct 2025 12:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.823787
- Title: VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes
- Title(参考訳): VisualOverload: 実感的なシーンでVLMを視覚的に理解する
- Authors: Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne,
- Abstract要約: 2,720組の質問応答対からなる視覚的質問応答(VQA)ベンチマークであるVisualOverloadを提案する。
通常、地球近傍の画像理解に焦点を当てた以前のVQAデータセットとは異なり、VisualOverloadは、密集したシーンでシンプルで知識のない視覚タスクを実行するためにモデルに挑戦する。
37の試験モデルのうち最高のモデル(o3)でさえ、最も難しいテスト分割で19.6%、すべての質問で69.5%の精度しか達成できない。
- 参考スコア(独自算出の注目度): 36.370533774426555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Is basic visual understanding really solved in state-of-the-art VLMs? We present VisualOverload, a slightly different visual question answering (VQA) benchmark comprising 2,720 question-answer pairs, with privately held ground-truth responses. Unlike prior VQA datasets that typically focus on near global image understanding, VisualOverload challenges models to perform simple, knowledge-free vision tasks in densely populated (or, overloaded) scenes. Our dataset consists of high-resolution scans of public-domain paintings that are populated with multiple figures, actions, and unfolding subplots set against elaborately detailed backdrops. We manually annotated these images with questions across six task categories to probe for a thorough understanding of the scene. We hypothesize that current benchmarks overestimate the performance of VLMs, and encoding and reasoning over details is still a challenging task for them, especially if they are confronted with densely populated scenes. Indeed, we observe that even the best model (o3) out of 37 tested models only achieves 19.6% accuracy on our hardest test split and overall 69.5% accuracy on all questions. Beyond a thorough evaluation, we complement our benchmark with an error analysis that reveals multiple failure modes, including a lack of counting skills, failure in OCR, and striking logical inconsistencies under complex tasks. Altogether, VisualOverload exposes a critical gap in current vision models and offers a crucial resource for the community to develop better models. Benchmark: http://paulgavrikov.github.io/visualoverload
- Abstract(参考訳): 最先端のVLMにおいて、基本的な視覚的理解は本当に解決されるのか?
提案するVisualOverloadは,2,720組の質問応答対からなる,わずかに異なる視覚的質問応答(VQA)ベンチマークである。
通常、地球近傍の画像理解に焦点を当てた以前のVQAデータセットとは異なり、VisualOverloadは、密集した(あるいは過剰な)シーンで、シンプルで知識のない視覚タスクを実行するためにモデルに挑戦する。
我々のデータセットは、複数の図形、アクション、詳細な背景に対して設定された展開するサブプロットで区切られたパブリックドメイン絵画の高解像度スキャンで構成されています。
我々はこれらの画像に6つのタスクカテゴリの質問を手動でアノテートし、シーンの理解を深めた。
我々は、現在のベンチマークがVLMの性能を過大評価していると仮定し、特に人口密度の高いシーンに直面している場合、詳細をエンコーディングし、推論することは依然として難しい課題である。
実際、37の試験モデルのうち最高のモデル(o3)でさえ、最も難しいテスト分割で19.6%、すべての質問で69.5%の精度しか達成していない。
徹底的な評価に加えて、カウントスキルの欠如、OCRの失敗、複雑なタスク下での論理的不整合など、複数の障害モードを示すエラー分析によって、ベンチマークを補完します。
また、VisualOverloadは現在のビジョンモデルにおいて重要なギャップを露呈し、より良いモデルを開発するためにコミュニティにとって重要なリソースを提供する。
ベンチマーク: http://paulgavrikov.github.io/visualoverload
関連論文リスト
- COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark [3.5018278981067685]
COREVQA (Crowd Observations and Reasoning Entailment) は5608の画像と合成生成された真/偽のステートメントペアのベンチマークである。
以上の結果から,トップパフォーマンスのVLMでも80%以下で精度が向上し,他のモデルも大幅に悪化した。
論文 参考訳(メタデータ) (2025-07-17T04:47:47Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs [61.01278660925202]
Dyscaは、合成画像を利用してLVLMを評価するための動的でスケーラブルなベンチマークである。
51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。
Dyscaは、新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。
論文 参考訳(メタデータ) (2024-06-27T02:40:35Z) - MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning [22.440669015518015]
マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
論文 参考訳(メタデータ) (2024-04-21T09:15:02Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。