論文の概要: VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs
- arxiv url: http://arxiv.org/abs/2506.06727v2
- Date: Sun, 28 Sep 2025 04:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.033133
- Title: VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs
- Title(参考訳): VisioMath: LMMにおける図ベースの数学的推論のベンチマーク
- Authors: Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang,
- Abstract要約: 1,800 の高品質 K-12 数学問題のキュレートされたベンチマークである groundingMath は、すべての候補解が微妙な視覚的類似性を持つダイアグラムである。
最先端のオープンソースシステムと広く採用されているオープンソースモデルの両方をカバーする、最先端のLMMの包括的な評価は、画像間の類似性が増大するにつれて、一貫した精度の低下を示す。
トレーニングなしアプローチと微調整の3つのアライメント指向戦略について検討し,精度の向上を図る。
- 参考スコア(独自算出の注目度): 31.007061220012954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models have achieved remarkable progress in integrating vision and language, enabling strong performance across perception, reasoning, and domain-specific tasks. However, their capacity to reason over multiple, visually similar inputs remains insufficiently explored. Such fine-grained comparative reasoning is central to real-world tasks, especially in mathematics and education, where learners must often distinguish between nearly identical diagrams to identify correct solutions. To address this gap, we present VisioMath, a curated benchmark of 1,800 high-quality K-12 mathematics problems in which all candidate answers are diagrams with subtle visual similarities. A comprehensive evaluation of state-of-the-art LMMs, covering both leading closed-source systems and widely adopted open-source models, reveals a consistent decline in accuracy as inter-image similarity increases. Analysis indicates that the dominant failure mode stems from image-text misalignment: rather than grounding reasoning in textual cues, models often resort to shallow positional heuristics, resulting in systematic errors. We further explore three alignment-oriented strategies, spanning training-free approaches and finetuning, and achieve substantial accuracy gains. We hope that VisioMath will serve as a rigorous benchmark and catalyst for developing LMMs toward deeper diagram understanding, precise comparative reasoning, and grounded multi-image-text integration.
- Abstract(参考訳): 大規模マルチモーダルモデルは、視覚と言語の統合において顕著な進歩を遂げており、知覚、推論、ドメイン固有のタスク間での強力なパフォーマンスを実現している。
しかし、複数の視覚的に類似した入力を推論する能力は依然として不十分である。
このような微粒な比較推論は、特に数学や教育において現実世界のタスクの中心であり、学習者は正しい解を識別するために、ほぼ同一の図を区別しなければならない。
このギャップに対処するために、VisioMathは1,800の高品質K-12数学問題のキュレートされたベンチマークを示し、すべての候補解が微妙な視覚的類似性を持つ図形である。
最先端のオープンソースシステムと広く採用されているオープンソースモデルの両方をカバーする、最先端のLMMの包括的な評価は、画像間の類似性が増大するにつれて、一貫した精度の低下を示す。
分析は、支配的な失敗モードは画像-テキストのミスアライメントに起因していることを示している: テキストの手がかりに推論を基礎付けるのではなく、モデルはしばしば浅い位置のヒューリスティックに頼り、体系的な誤りをもたらす。
さらに、トレーニングなしアプローチと微調整の3つのアライメント指向戦略を検討し、精度の高いゲインを実現する。
VisioMathは、より深いダイアグラム理解、正確な比較推論、マルチイメージテキスト統合に向けたLMM開発のための厳密なベンチマークおよび触媒として機能することを願っている。
関連論文リスト
- VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos [89.39873803375498]
VideoMathQAは、ビデオ上で時間的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークである。
ベンチマークは10種類の数学的領域にまたがっており、ビデオは10秒から1時間以上に及ぶ。
構造化された視覚的コンテンツを解釈し、指導的物語を理解し、視覚的、音声的、テキスト的モダリティにまたがる共同概念を理解するためのモデルが必要である。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.28977802424541]
視覚的依存を明示するマルチモーダル数学的推論のためのベンチマークであるVCBENCHを紹介する。
VCBENCHには6つの認知領域に1,720の問題がある。
我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
論文 参考訳(メタデータ) (2025-04-24T06:16:38Z) - The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights [26.85150689408895]
既存のマルチモーダルな数学的モデルでは視覚情報を最小限に活用できることを示す。
これは、意図せずモデルに回答を誘導するテキスト情報と回答オプションの優位性に起因している。
先行モデルをテストする際、微妙な視覚的差異を検知できないことは、現在の視覚知覚能力の限界を示唆している。
論文 参考訳(メタデータ) (2025-03-06T07:29:33Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models [14.274813480249161]
数学と視覚のギャップを埋める大きな言語モデルである textbfMultiMath-7B を導入する。
textbfMultiMath-7Bは4段階のプロセスで訓練され、視覚言語アライメント、視覚と数学の指導チューニング、プロセス教師付き強化学習に重点を置いている。
また,画像キャプションとステップワイズによるK-12レベルにまたがる新しい多モード数学的データセット,textbfMultiMath-300Kを構築した。
論文 参考訳(メタデータ) (2024-08-30T07:37:38Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset [33.65525875690291]
実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。
広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。
我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:56:38Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。