論文の概要: Do MLLMs Really Understand Space? A Mathematical Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2602.11635v1
- Date: Thu, 12 Feb 2026 06:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.67818
- Title: Do MLLMs Really Understand Space? A Mathematical Reasoning Evaluation
- Title(参考訳): MLLMは宇宙を本当に理解しているか? 数学的推論による評価
- Authors: Shuo Lu, Jianjie Cheng, Yinuo Xu, Yongcan Yu, Lijun Sheng, Peijie Wang, Siru Jiang, Yongguan Hu, Run Ling, Yihua Shao, Ao Ma, Wei Feng, Lingxiao He, Meng Wang, Qianlong Xie, Xingxing Wang, Ran He, Jian Liang,
- Abstract要約: 人間は95%以上の精度で教科書形式の空間推論問題を解く。
ほとんどのMLLMは、同じタスクで60%にも達しない。
MLLMにおける空間推論の評価と改善のための統合フレームワークであるMathSpatialを提案する。
- 参考スコア(独自算出の注目度): 40.51381653532164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved strong performance on perception-oriented tasks, yet their ability to perform mathematical spatial reasoning, defined as the capacity to parse and manipulate two- and three-dimensional relations, remains unclear. Humans easily solve textbook-style spatial reasoning problems with over 95\% accuracy, but we find that most leading MLLMs fail to reach even 60\% on the same tasks. This striking gap highlights spatial reasoning as a fundamental weakness of current models. To investigate this gap, we present MathSpatial, a unified framework for evaluating and improving spatial reasoning in MLLMs. MathSpatial includes three complementary components: (i) MathSpatial-Bench, a benchmark of 2K problems across three categories and eleven subtypes, designed to isolate reasoning difficulty from perceptual noise; (ii) MathSpatial-Corpus, a training dataset of 8K additional problems with verified solutions; and (iii) MathSpatial-SRT, which models reasoning as structured traces composed of three atomic operations--Correlate, Constrain, and Infer. Experiments show that fine-tuning Qwen2.5-VL-7B on MathSpatial achieves competitive accuracy while reducing tokens by 25\%. MathSpatial provides the first large-scale resource that disentangles perception from reasoning, enabling precise measurement and comprehensive understanding of mathematical spatial reasoning in MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は知覚指向タスクにおいて高い性能を達成しているが、2次元および3次元の関係を解析・操作する能力として定義された数学的空間推論を行う能力はいまだ不明である。
人間は95%以上の精度で教科書形式の空間推論問題を解くことができるが、ほとんどのMLLMは、同じタスクで60倍にも達しない。
この顕著なギャップは、現在のモデルの根本的な弱点として空間的推論を強調している。
このギャップを解明するために,MLLMにおける空間推論の評価と改善のための統合フレームワークであるMathSpatialを提案する。
MathSpatialには3つの補完的なコンポーネントが含まれている。
(i)3つのカテゴリと11のサブタイプにまたがる2K問題のベンチマークであるMathSpatial-Benchは、知覚ノイズから推論困難を分離するように設計されている。
(ii)MathSpatial-Corpusは、検証された解に対する8Kの追加問題のトレーニングデータセットであり、
(iii)MathSpatial-SRTは、Correlate、Constrain、Inferの3つのアトミック操作からなる構造化トレースとして推論するモデルである。
実験により,Qwen2.5-VL-7BをMathSpatial上で微調整することにより,トークンを25%削減し,競争精度が向上した。
MathSpatialは、MLLMにおける数学的空間的推論の正確な測定と包括的理解を可能にする、推論から知覚を遠ざける最初の大規模なリソースを提供する。
関連論文リスト
- Evaluating the Reasoning Abilities of LLMs on Underrepresented Mathematics Competition Problems [0.0]
本研究の目的は,表現不足の数学競争問題における大規模言語モデルの性能分析である。
我々は,ミズーリ大学数学コンペティション問題で,GPT-4o-mini,Gemini-2.0-Flash,DeepSeek-V3の3つの主要なLLMを推し進めた。
DeepSeek-V3は、解析、解析幾何学、離散数学の3つのカテゴリで、推論と正解の両方において、最高のパフォーマンスを持っている。
論文 参考訳(メタデータ) (2025-12-30T23:05:11Z) - CogMath: Assessing LLMs' Authentic Mathematical Ability from a Human Cognitive Perspective [68.94793547575343]
CogMathは、人間の推論プロセスを3段階に定式化している。
各次元において,この次元からLLMの熟達度を評価する問合せを生成するために,emphInquiry-emphJudge-emphReference'のマルチエージェントシステムの開発を行う。
LLMは、9次元からのすべての問い合わせに優れている場合にのみ、真に問題をマスターすると考えられている。
論文 参考訳(メタデータ) (2025-06-04T22:00:52Z) - Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning [9.529849982292033]
Step Guided Reasoning(ステップガイド推論)は、数学的推論機能を強化した言語モデルを備えた、トレーニング不要な適応フレームワークである。
最先端言語モデルにおける数学的性能向上におけるステップガイド推論の意義を実証する。
論文 参考訳(メタデータ) (2024-10-18T01:38:24Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts [18.91777213491096]
現実的な数学的文脈におけるMLLMの推論能力を評価することに焦点を当てた新しいベンチマークであるMathScapeを紹介する。
MathScapeは、1,369の高品質な数学問題と、人間のキャプチャーされた現実世界の画像からなる。
我々は,9つの主要なクローズドソースMLLM,200億以上のパラメータを持つ3つのオープンソースMLLM,そして7つの小規模MLLMに対して,徹底的な多次元評価を行う。
論文 参考訳(メタデータ) (2024-08-14T13:23:43Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。