論文の概要: VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs
- arxiv url: http://arxiv.org/abs/2512.21194v1
- Date: Wed, 24 Dec 2025 14:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.794866
- Title: VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs
- Title(参考訳): VisRes Bench氏: VLMの視覚的推論能力の評価について
- Authors: Brigitta Malagurski Törtei, Yasser Dahou, Ngoc Dung Huynh, Wamiq Reyaz Para, Phúc H. Lê Khac, Ankit Singh, Sofian Chaybouti, Sanath Narayan,
- Abstract要約: 自然主義的環境下での視覚的推論を文脈言語による制御なしで研究するためのベンチマークであるVisRes Benchを紹介した。
3段階の複雑さのモデル行動を分析し、知覚的および関係的な視覚的推論能力の明らかな限界を明らかにする。
我々は、VisResがマルチモーダル研究における抽象的な視覚的推論を促進するための統一的なフレームワークをどのように提供するかについて論じる。
- 参考スコア(独自算出の注目度): 7.406217790017003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable progress across tasks such as visual question answering and image captioning. Yet, the extent to which these models perform visual reasoning as opposed to relying on linguistic priors remains unclear. To address this, we introduce VisRes Bench, a benchmark designed to study visual reasoning in naturalistic settings without contextual language supervision. Analyzing model behavior across three levels of complexity, we uncover clear limitations in perceptual and relational visual reasoning capacities. VisRes isolates distinct reasoning abilities across its levels. Level 1 probes perceptual completion and global image matching under perturbations such as blur, texture changes, occlusion, and rotation; Level 2 tests rule-based inference over a single attribute (e.g., color, count, orientation); and Level 3 targets compositional reasoning that requires integrating multiple visual attributes. Across more than 19,000 controlled task images, we find that state-of-the-art VLMs perform near random under subtle perceptual perturbations, revealing limited abstraction beyond pattern recognition. We conclude by discussing how VisRes provides a unified framework for advancing abstract visual reasoning in multimodal research.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的質問応答や画像キャプションといったタスクにおいて顕著な進歩を遂げている。
しかし、これらのモデルがどのように視覚的推論を行うかは、言語学的な先行概念に依存してはいない。
これを解決するために,自然主義的環境下での視覚的推論を文脈言語を監督せずに研究するためのベンチマークVisRes Benchを紹介した。
3段階の複雑さのモデル行動を分析し、知覚的および関係的な視覚的推論能力の明らかな限界を明らかにする。
VisResはそのレベルの異なる推論能力を分離する。
レベル1は、ぼかし、テクスチャの変化、オクルージョン、回転などの摂動下での知覚的完了とグローバルな画像マッチングを探索し、レベル2は、1つの属性(例えば、色、数、方向)に対するルールベースの推論をテストし、レベル3は複数の視覚的属性を統合する必要がある構成的推論を目標とする。
19,000以上の制御されたタスクイメージのうち、最先端のVLMは微妙な知覚的摂動の下でランダムに動作し、パターン認識以上の抽象化が限られていることが判明した。
我々は、VisResがマルチモーダル研究における抽象的な視覚的推論を促進するための統一的なフレームワークをどのように提供するかについて論じる。
関連論文リスト
- CoFFT: Chain of Foresight-Focus Thought for Visual Language Models [61.34272727005052]
フォレスト・フォーカス思考の連鎖(英語: Chain of Foresight-Focus Thought, CoFFT)は、人間の視覚的認知をエミュレートすることによって視覚的推論を強化する訓練のないアプローチである。
これらの段階は反復的に機能し、推論が視覚的焦点を導き、視覚的焦点がその後の推論を知らせる相互依存サイクルを生成する。
Qwen2.5-VL、InternVL-2.5、Llava-Nextを使った複数のベンチマークでの実証結果では、3.1-5.8%が一貫したパフォーマンス向上を示し、計算オーバーヘッドは増大した。
論文 参考訳(メタデータ) (2025-09-26T07:46:30Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning [56.99825489208698]
複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。
VisionReasonerは、視覚的な入力を分析するための推論機能を強化し、統一モデル内の様々な知覚タスクに対処する。
VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
論文 参考訳(メタデータ) (2025-05-17T16:51:47Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。