論文の概要: SpatialMath: Spatial Comprehension-Infused Symbolic Reasoning for Mathematical Problem-Solving
- arxiv url: http://arxiv.org/abs/2601.17489v1
- Date: Sat, 24 Jan 2026 15:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.813154
- Title: SpatialMath: Spatial Comprehension-Infused Symbolic Reasoning for Mathematical Problem-Solving
- Title(参考訳): 空間的マス: 数学的問題解決のための空間的理解型シンボリック推論
- Authors: Ashutosh Bajpai, Akshat Bhandari, Akshay Nambi, Tanmoy Chakraborty,
- Abstract要約: マルチモーダル・スモール・トゥ・メタル・サイズ言語モデル (MSLM) は、視覚情報とテキスト情報の統合において強力な能力を示している。
現在のモデルは、複雑な視覚入力を正確に分解し、幾何学的知覚と構造的推論を結びつけるのに苦労している。
本研究では,空間表現を構造的シンボリック推論チェーンに統合する空間注入推論フレームワークであるSpatialMathを提案する。
- 参考スコア(独自算出の注目度): 17.304596904197204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Small-to-Medium sized Language Models (MSLMs) have demonstrated strong capabilities in integrating visual and textual information but still face significant limitations in visual comprehension and mathematical reasoning, particularly in geometric problems with diverse levels of visual infusion. Current models struggle to accurately decompose intricate visual inputs and connect perception with structured reasoning, leading to suboptimal performance. To address these challenges, we propose SpatialMath, a novel Spatial Comprehension-Infused Symbolic Reasoning Framework designed to integrate spatial representations into structured symbolic reasoning chains. SpatialMath employs a specialized perception module to extract spatially-grounded representations from visual diagrams, capturing critical geometric structures and spatial relationships. These representations are then methodically infused into symbolic reasoning chains, facilitating visual comprehension-aware structured reasoning. To this end, we introduce MATHVERSE-PLUS, a novel dataset containing structured visual interpretations and step-by-step reasoning paths for vision-intensive mathematical problems. SpatialMath significantly outperforms strong multimodal baselines, achieving up to 10 percentage points improvement over supervised fine-tuning with data augmentation in vision-intensive settings. Robustness analysis reveals that enhanced spatial representations directly improve reasoning accuracy, reinforcing the need for structured perception-to-reasoning pipelines in MSLMs.
- Abstract(参考訳): マルチモーダル・スモール・トゥ・メタル・サイズ言語モデル(MSLM)は、視覚情報とテキスト情報の統合において強力な能力を示しているが、視覚的理解と数学的推論において、特に様々な視覚的注入レベルを持つ幾何学的問題において、大きな制限に直面している。
現在のモデルは、複雑な視覚入力を正確に分解し、知覚と構造的推論を結びつけるのに苦労し、最適以下の性能をもたらす。
このような課題に対処するために,空間表現を構造的シンボリック推論チェーンに統合する新しい空間理解型シンボリック推論フレームワークであるSpatialMathを提案する。
SpaceMathは、視覚図から空間的に接地された表現を抽出し、重要な幾何学的構造と空間的関係をキャプチャするために、特別な知覚モジュールを使用している。
これらの表現は体系的に記号的推論連鎖に注入され、視覚的理解に敏感な構造化推論を促進する。
この目的のために、構造化された視覚解釈とステップバイステップの推論経路を含む新しいデータセットであるMATHVERSE-PLUSを紹介する。
SpaceMathは強力なマルチモーダルベースラインをはるかに上回り、視覚集約的な設定におけるデータ拡張による教師付き微調整よりも最大10パーセントの改善を実現している。
ロバストネス解析により、空間表現の強化により推論精度が向上し、MSLMにおける構造化された知覚対推論パイプラインの必要性が強化されることが明らかになった。
関連論文リスト
- CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving [28.57547723919984]
本稿では,認知に触発された新しい3段階のフレームワークであるCogFlowについて紹介する。
抽出された視覚的手がかりをその後の推論に忠実に統合することを保証するために,知識内部化リワードモデルを導入する。
また、120K以上の高品質な知覚関連アノテーションを持つサンプルを含むモデルトレーニングのための新しいデータセットMathCogも提供します。
論文 参考訳(メタデータ) (2026-01-05T08:02:18Z) - Figure It Out: Improve the Frontier of Reasoning with Executable Visual States [53.77871196174248]
複雑な推論問題はしばしば、テキストに明示的にエンコードされていない暗黙の空間的および幾何学的関係を含む。
FIGRを導入し、エンドツーエンドの強化学習を通じて、実行可能な視覚構成を多ターン推論に統合する。
8つの挑戦的な数学ベンチマークの実験により、FIGRは強いテキストのみのチェーン・オブ・シークレット・ベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-12-30T15:39:11Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation [19.4261670152456]
モデルが補助線,点,角などの視覚的キーポイントを識別できるかどうかを評価し,これらのキー要素を組み込んだ説明を生成するためのマルチモーダルソリューション説明タスクを提案する。
我々の経験的結果は、最近の大規模オープンソースおよびクローズドソースモデル、ほとんどの一般オープンソースモデル、数学特殊主義モデルを除いて、マルチモーダルソリューションの説明タスクに苦戦していることを示している。
このことは、現在のLLMの教育的文脈における視覚的基盤による推論と説明能力において、大きなギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-04-04T06:03:13Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。