論文の概要: VRIQ: Benchmarking and Analyzing Visual-Reasoning IQ of VLMs
- arxiv url: http://arxiv.org/abs/2602.05382v1
- Date: Thu, 05 Feb 2026 07:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.80173
- Title: VRIQ: Benchmarking and Analyzing Visual-Reasoning IQ of VLMs
- Title(参考訳): VRIQ:VLMのビジュアル推論IQのベンチマークと分析
- Authors: Tina Khezresmaeilzadeh, Jike Zhong, Konstantinos Psounis,
- Abstract要約: 視覚言語モデル(VLM)の視覚的推論能力の評価と解析を目的とした新しいベンチマークであるVRIQを紹介する。
抽象的なパズルでは、性能は平均28%の精度でほぼランダムに保たれ、一方、自然タスクは45%の精度でより優れているが、それでも弱い結果が得られる。
分析の結果,障害の約56%は知覚単独で発生し,43%は知覚と推論の両方から発生し,1%は推論単独から発生していることがわかった。
- 参考スコア(独自算出の注目度): 3.8552182839941884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in Vision Language Models (VLMs) has raised the question of whether they can reliably perform nonverbal reasoning. To this end, we introduce VRIQ (Visual Reasoning IQ), a novel benchmark designed to assess and analyze the visual reasoning ability of VLMs. We evaluate models on two sets of tasks: abstract puzzle-style and natural-image reasoning tasks. We find that on abstract puzzles, performance remains near random with an average accuracy of around 28%, while natural tasks yield better but still weak results with 45% accuracy. We also find that tool-augmented reasoning demonstrates only modest improvements. To uncover the source of this weakness, we introduce diagnostic probes targeting perception and reasoning. Our analysis demonstrates that around 56% of failures arise from perception alone, 43% from both perception and reasoning, and only a mere 1% from reasoning alone. This motivates us to design fine-grained diagnostic probe questions targeting specific perception categories (e.g., shape, count, position, 3D/depth), revealing that certain categories cause more failures than others. Our benchmark and analysis establish that current VLMs, even with visual reasoning tools, remain unreliable abstract reasoners, mostly due to perception limitations, and offer a principled basis for improving visual reasoning in multimodal systems.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、非言語的推論を確実に実行できるかという疑問を提起している。
この目的のために,VLMの視覚的推論能力の評価と解析を目的とした新しいベンチマークであるVRIQ(Visual Reasoning IQ)を紹介する。
我々は,抽象的なパズルスタイルと自然なイメージ推論という2つのタスクのモデルを評価する。
抽象的なパズルでは、性能は平均28%の精度でほぼランダムに保たれ、一方、自然タスクは45%の精度でより優れているが、それでも弱い結果が得られる。
また、ツール強化による推論は、わずかに改善されているだけであることもわかりました。
この弱点を解明するために,認識と推論を対象とする診断プローブを導入する。
分析の結果,障害の約56%は知覚単独で発生し,43%は知覚と推論の両方から発生し,1%は推論単独から発生していることがわかった。
これにより、特定の知覚カテゴリ(例えば、形状、数、位置、3D/深さ)をターゲットにしたきめ細かい診断プローブを設計し、特定のカテゴリが他のカテゴリよりも多くの障害を引き起こすことを示した。
我々のベンチマークと分析により、現在のVLMは、視覚的推論ツールであっても、認識の制限により、信頼性の低い抽象的推論器のままであり、マルチモーダルシステムにおける視覚的推論を改善するための原則的基盤を提供する。
関連論文リスト
- BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning [26.671128120554457]
因果推論は、複雑な高レベルの推論タスクを解決するのに基本である。
既存のベンチマークには、しばしば推論の質問が混在している。
VQA-CausalとVCR-Causalを導入し,因果推論能力の分離と厳密な評価を行った。
論文 参考訳(メタデータ) (2025-06-01T07:17:46Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning [56.99825489208698]
複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。
VisionReasonerは、視覚的な入力を分析するための推論機能を強化し、統一モデル内の様々な知覚タスクに対処する。
VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
論文 参考訳(メタデータ) (2025-05-17T16:51:47Z) - IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests [1.1142124321313052]
標準化されたビジュアルIQテストにおいてビジョン言語モデルを評価するために設計された新しいベンチマークである*IQBench*を紹介する。
我々はVLMの推論能力を評価することに集中しており、最終的な予測の精度よりも重要であると我々は主張する。
論文 参考訳(メタデータ) (2025-05-17T13:24:08Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [59.92786855289658]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。
実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。