論文の概要: MathSight: A Benchmark Exploring Have Vision-Language Models Really Seen in University-Level Mathematical Reasoning?
- arxiv url: http://arxiv.org/abs/2511.23112v1
- Date: Fri, 28 Nov 2025 11:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.880283
- Title: MathSight: A Benchmark Exploring Have Vision-Language Models Really Seen in University-Level Mathematical Reasoning?
- Title(参考訳): MathSight:University-Level Mathematical Reasoningで見るビジョンランゲージモデルのベンチマーク
- Authors: Yuandong Wang, Yao Cui, Yuxin Zhao, Zhen Yang, Yangfu Zhu, Zhenzhou Shao,
- Abstract要約: 大学レベルのマルチモーダル数学的推論ベンチマークであるMathSightを提案する。
最先端のVision-Language Modelの実験は、一貫した傾向を示している。
- 参考スコア(独自算出の注目度): 21.777853590188688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have achieved impressive progress in multimodal mathematical reasoning. Yet, how much visual information truly contributes to reasoning remains unclear. Existing benchmarks report strong overall performance but seldom isolate the role of the image modality, leaving open whether VLMs genuinely leverage visual understanding or merely depend on linguistic priors. To address this, we present MathSight, a university-level multimodal mathematical reasoning benchmark designed to disentangle and quantify the effect of visual input. Each problem includes multiple visual variants -- original, hand-drawn, photo-captured -- and a text-only condition for controlled comparison. Experiments on state-of-the-art VLMs reveal a consistent trend: the contribution of visual information diminishes with increasing problem difficulty. Remarkably, Qwen3-VL without any image input surpasses both its multimodal variants and GPT-5, underscoring the need for benchmarks like MathSight to advance genuine vision-grounded reasoning in future models.
- Abstract(参考訳): VLM(Vision-Language Models)の最近の進歩は、マルチモーダルな数学的推論において顕著な進歩を遂げている。
しかし、視覚情報が真の推論にどの程度貢献するかは、まだ不明である。
既存のベンチマークでは、全体的なパフォーマンスは高いが、画像のモダリティの役割をほとんど分離せず、VLMが視覚的理解を真に活用するか、単に言語的先行にのみ依存するかを未然に残している。
これを解決するために,大学レベルのマルチモーダル数学的推論ベンチマークであるMathSightを提案する。
各問題には、オリジナル、手書き、写真キャプチャーの複数の視覚的バリエーションと、比較管理のためのテキストのみの条件が含まれている。
最先端のVLMの実験は、一貫した傾向を示している: 視覚情報の寄与は、問題の難しさの増加とともに減少する。
驚くべきことに、Qwen3-VLは画像入力なしでマルチモーダル版とGPT-5を上回り、将来のモデルで真に視覚的な推論を進めるためにMathSightのようなベンチマークの必要性を強調している。
関連論文リスト
- Evaluating Visual Mathematics in Multimodal LLMs: A Multilingual Benchmark Based on the Kangaroo Tests [2.0176279176431744]
MLLM(Multimodal Large Language Models)は先進的な視覚言語能力を約束するが、視覚的に提示された数学におけるその有効性は未解明のままである。
本稿では,図形,多言語テキスト,記号表記に着目し,数学的問題解決のためのMLLMの開発と評価を行う。
GPT 4o, Pixtral, Qwen VL, Llama 3.2 Vision, Gemini 2.0 Flashなど,英語,フランス語,スペイン語,カタルーニャ語にまたがる多言語カンガルースタイルのベンチマークを評価した。
論文 参考訳(メタデータ) (2025-06-09T04:35:02Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities [19.923665989164387]
MuCRはMultimodal Causal Reasoningベンチマークであり、合成シアム画像とテキストペアを利用してMLLMに挑戦する。
実験の結果,現在のMLLMはテキスト環境下での性能に比べ,マルチモーダル因果推論では不足していることがわかった。
本稿では,視覚的手がかりをより強調するVcCoT戦略を提案し,その効果がマルチモーダル因果推論の強化に有効であることを確認した。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。
MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。
本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文 参考訳(メタデータ) (2024-04-22T21:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。