論文の概要: Can MLLMs Reason Beyond Language? VisReason: A Comprehensive Benchmark for Vision-Centric Reasoning
- arxiv url: http://arxiv.org/abs/2605.25364v1
- Date: Mon, 25 May 2026 02:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.257509
- Title: Can MLLMs Reason Beyond Language? VisReason: A Comprehensive Benchmark for Vision-Centric Reasoning
- Title(参考訳): MLLMは言語を超えることができるか? VisReason: 視覚中心推論のための総合ベンチマーク
- Authors: Longteng Guo, Yifan Wang, Pengkang Huo, Tailai Chen, Yuze Wu, Jing Liu, Xinxin Zhu,
- Abstract要約: VisReasonは、日々のシナリオにおけるビジョン中心の推論のためのベンチマークである。
我々の評価は、VisReasonが既存のベンチマークと定性的に異なる課題を生んでいることを示している。
- 参考スコア(独自算出の注目度): 15.581557181510545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal large language models (MLLMs) achieve strong performance on visual reasoning benchmarks, yet it remains unclear to what extent such performance reflects reasoning directly grounded in visual evidence. We introduce VisReason, a benchmark for vision-centric reasoning in everyday scenarios where perception and inference are tightly coupled. VisReason contains 1,505 questions across 10 categories spanning perceptual, structural, and conceptual reasoning. Our evaluation shows that VisReason poses a qualitatively different challenge from existing benchmarks, exposing substantial gaps between humans and current MLLMs and revealing limited benefits from test-time reasoning strategies. VisReason offers a focused diagnostic for evaluating vision-centric reasoning beyond language.
- Abstract(参考訳): 近年のマルチモーダル大規模言語モデル (MLLM) は, 視覚的推論のベンチマークにおいて高い性能を達成しているが, 視覚的根拠に根ざした推論をどの程度反映しているかは定かではない。
視覚中心推論のベンチマークであるVisReasonを紹介した。
VisReasonには、知覚的、構造的、概念的推論にまたがる10のカテゴリにまたがる1,505の質問が含まれている。
我々の評価は、VisReasonが既存のベンチマークと定性的に異なる課題をもたらし、人間と現在のMLLMの間にかなりのギャップを生じさせ、テスト時の推論戦略による限られた利点を明らかにしていることを示している。
VisReasonは、言語以外の視覚中心の推論を評価するために焦点を絞った診断を提供する。
関連論文リスト
- Argus Inspection: Do Multimodal Large Language Models Possess the Eye of Panoptes? [14.41230051139575]
本稿では,2段階の難易度を有するマルチモーダルベンチマークであるArgus Inspectionを紹介する。
また、双対パラメトリックなシグモイド計量と指標関数を統合する「アイ・オブ・パノプテス」フレームワークも提示する。
論文 参考訳(メタデータ) (2025-06-03T13:44:14Z) - Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought [83.89629325805505]
我々は、新しい視覚的注意基盤機構で制限に対処するためにArgusを導入する。
提案手法では、物体中心の接地を視覚的連鎖信号として採用し、より効果的な目標条件付き視覚的注意を可能にする。
論文 参考訳(メタデータ) (2025-05-29T17:59:56Z) - VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning [56.99825489208698]
複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。
VisionReasonerは、視覚的な入力を分析するための推論機能を強化し、統一モデル内の様々な知覚タスクに対処する。
VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
論文 参考訳(メタデータ) (2025-05-17T16:51:47Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [59.92786855289658]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。
実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。