論文の概要: VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs
- arxiv url: http://arxiv.org/abs/2506.06727v1
- Date: Sat, 07 Jun 2025 09:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.45142
- Title: VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs
- Title(参考訳): VisioMath: LMMにおける図ベースの数学的推論のベンチマーク
- Authors: Can Li, Ting Zhang, Mei Wang, Hua Huang,
- Abstract要約: 大規模マルチモデル (LMM) は、様々な領域にまたがる顕著な問題解決能力を示している。
Mathは、画像ベースの回答選択を含むマルチモーダルコンテキストにおける数学的推論を評価するために設計されたベンチマークである。
Mathは8,070のイメージと1,800の複数選択の質問で構成されている。
- 参考スコア(独自算出の注目度): 31.275220539010732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have demonstrated remarkable problem-solving capabilities across various domains. However, their ability to perform mathematical reasoning when answer options are represented as images--an essential aspect of multi-image comprehension--remains underexplored. To bridge this gap, we introduce VisioMath, a benchmark designed to evaluate mathematical reasoning in multimodal contexts involving image-based answer choices. VisioMath comprises 8,070 images and 1,800 multiple-choice questions, where each answer option is an image, presenting unique challenges to existing LMMs. To the best of our knowledge, VisioMath is the first dataset specifically tailored for mathematical reasoning in image-based-option scenarios, where fine-grained distinctions between answer choices are critical for accurate problem-solving. We systematically evaluate state-of-the-art LMMs on VisioMath and find that even the most advanced models struggle with this task. Notably, GPT-4o achieves only 45.9% accuracy, underscoring the limitations of current models in reasoning over visually similar answer choices. By addressing a crucial gap in existing benchmarks, VisioMath establishes a rigorous testbed for future research, driving advancements in multimodal reasoning.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は、様々な領域にまたがる顕著な問題解決能力を示している。
しかし、解答オプションが画像として表現されるときに数学的推論を行う能力は、マルチイメージ理解の本質的な側面である。
このギャップを埋めるために、画像ベースの回答選択を含むマルチモーダルコンテキストにおける数学的推論を評価するために設計されたベンチマークであるVisioMathを紹介する。
VisioMathは8,070のイメージと1,800の複数選択の質問で構成されており、各回答オプションはイメージであり、既存のLMMに固有の課題を提示する。
私たちの知る限りでは、VisioMathは画像ベースの選択シナリオにおける数学的推論に適した最初のデータセットです。
VisioMath上の最先端のLMMを体系的に評価し、最も高度なモデルでさえこの課題に苦しむことを発見した。
特に、GPT-4oは45.9%の精度しか達成せず、視覚的に類似した答えの選択を推し進める上で、現在のモデルの限界を過小評価している。
既存のベンチマークにおいて重要なギャップに対処することによって、VisioMathは将来の研究のための厳格なテストベッドを確立し、マルチモーダル推論の進歩を推進している。
関連論文リスト
- Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset [33.65525875690291]
実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。
広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。
我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:56:38Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。