論文の概要: VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs
- arxiv url: http://arxiv.org/abs/2507.13361v1
- Date: Fri, 04 Jul 2025 23:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-27 08:26:15.898471
- Title: VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs
- Title(参考訳): トンネルビジョンを持つVLM:リードVLMにおける非局所視覚推論の評価
- Authors: Shmuel Berman, Jia Deng,
- Abstract要約: ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
- 参考スコア(独自算出の注目度): 18.349695067647012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Language Models (VLMs) excel at complex visual tasks such as VQA and chart understanding, yet recent work suggests they struggle with simple perceptual tests. We present an evaluation that tests vision-language models' capacity for nonlocal visual reasoning -- reasoning that requires chaining evidence collected from multiple, possibly distant, regions of an image. We isolate three distinct forms of non-local vision: comparative perception, which demands holding two images in working memory and comparing them; saccadic search, which requires making discrete, evidence-driven jumps to locate successive targets; and smooth visual search, which involves searching smoothly along a continuous contour. Flagship models (e.g., Gemini 2.5 Pro, Claude Vision 3.7, GPT-o4-mini), even those that perform well on prior primitive-vision benchmarks, fail these tests and barely exceed random accuracy on two variants of our tasks that are trivial for humans. Our structured evaluation suite allows us to test if VLMs can perform similar visual algorithms to humans. Our findings show that despite gains in raw visual acuity, current models lack core visual reasoning capabilities.
- Abstract(参考訳): ビジュアル言語モデル(VLM)は、VQAやチャート理解といった複雑な視覚的タスクに優れていますが、最近の研究は、単純な知覚テストで苦労していることを示唆しています。
画像の複数の、おそらくは遠い領域から収集された連鎖的証拠を必要とする推論を、非局所的な視覚的推論のために視覚言語モデルの能力をテストすることを評価する。
非局所的な視覚の3つの形態を分離する: 比較知覚: 作業記憶に2つの画像を保持してそれらと比較する; サスカディックサーチ: 連続する目標を位置づけするために離散的でエビデンス駆動のジャンプを必要とする; 滑らかなビジュアルサーチ: 連続した輪郭に沿ってスムーズに探索する。
フラッグシップモデル(例えば、Gemini 2.5 Pro、Claude Vision 3.7、GPT-o4-mini)は、以前のプリミティブビジョンベンチマークでうまく機能するモデルでさえ、これらのテストに失敗し、人間にとって簡単な2種類のタスクに対して、ランダムな精度をほとんど上回らない。
我々の構造化評価スイートは、VLMが人間に類似した視覚的アルゴリズムを実行できるかどうかをテストすることができる。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
関連論文リスト
- Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes [8.941800684473202]
我々は,1000以上のスパースビュー屋内シナリオにおいて,人間にインスパイアされたコビジュアビリティ推論を評価するために設計されたCo-VisiONベンチマークを紹介した。
この結果から,コビジュアビリティは低レベルな特徴マッチングタスクとして扱われることが多いが,スパース条件下での既存の視覚モデルでは依然として困難であることがわかった。
本稿では,純視覚モデルにおける最高性能を達成し,プロプライエタリなVLMとのギャップを狭める,新しい多視点ベースラインであるCovisを提案する。
論文 参考訳(メタデータ) (2025-06-20T07:42:26Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。
人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。
表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-06T17:06:25Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting [59.830657530592255]
Amodally for Patterns Through Unseen Regions (CAPTURe)は、視覚言語モデルを評価するためのテストベッドである。
CAPTUReでは、4つの強力な視覚言語モデルを評価し、隠蔽パターンと隠蔽パターンの両方でモデルがカウントできないことを発見した。
論文 参考訳(メタデータ) (2025-04-21T23:38:43Z) - VLM2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues [34.95077625513563]
textbfVLM2-Benchは視覚言語モデルが視覚的にマッチングの手がかりをリンクできるかどうかを評価するためのベンチマークである。
12個のVLMの包括的評価と、様々な言語側および視覚側プロンプト手法のさらなる分析により、合計8つの重要な結果が得られた。
視覚的な手がかりをリンクするモデルの能力において重要な課題を特定し、大きなパフォーマンスギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2025-02-17T17:57:50Z) - Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models [29.078437003042357]
Zero-Shot Anomaly Detection (ZSAD)はADパラダイムである。
本稿では,ZSAD と推論のための視覚アシスタントである Anomaly-OneVision (Anomaly-OV) を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:50:43Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation [13.311411816150551]
2つの非常に類似した画像を一意に記述する能力により、MLLMが特定の視覚概念をいかによく理解するかを評価する。
D3ベンチマークの一部として247枚の非常に類似した画像ペアをキュレートする。
各画像対について、(1)特定の視覚的差を検知し、(2)目的画像を独自に記述し、(3)対象画像を障害者から識別する。
論文 参考訳(メタデータ) (2024-09-23T15:31:25Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。