論文の概要: GeoLaux: A Benchmark for Evaluating MLLMs' Geometry Performance on Long-Step Problems Requiring Auxiliary Lines
- arxiv url: http://arxiv.org/abs/2508.06226v1
- Date: Fri, 08 Aug 2025 11:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.210434
- Title: GeoLaux: A Benchmark for Evaluating MLLMs' Geometry Performance on Long-Step Problems Requiring Auxiliary Lines
- Title(参考訳): GeoLaux: 補助線を必要とする長期問題に対するMLLMの幾何学的性能評価ベンチマーク
- Authors: Yumeng Fu, Jiayin Zhu, Lingling Zhang, Bo Zhao, Shaoxuan Ma, Yushun Zhang, Yanrui Wu, Wenjun Wu,
- Abstract要約: GPSは、図の理解、論理的推論、知識応用、数値計算、補助線構築をマスターするモデルを必要とする。
MLLMの幾何学的スキルを評価するための既存のベンチマークは、補助的なライン構築を見越し、きめ細かいプロセス評価を欠いている。
計算問題と証明問題の両方を取り入れた2,186の幾何問題からなるGeoLauxベンチマークを提案する。
- 参考スコア(独自算出の注目度): 7.0195383224272225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geometry problem solving (GPS) requires models to master diagram comprehension, logical reasoning, knowledge application, numerical computation, and auxiliary line construction. This presents a significant challenge for Multimodal Large Language Models (MLLMs). However, existing benchmarks for evaluating MLLM geometry skills overlook auxiliary line construction and lack fine-grained process evaluation, making them insufficient for assessing MLLMs' long-step reasoning abilities. To bridge these gaps, we present the GeoLaux benchmark, comprising 2,186 geometry problems, incorporating both calculation and proving questions. Notably, the problems require an average of 6.51 reasoning steps, with a maximum of 24 steps, and 41.8% of them need auxiliary line construction. Building on the dataset, we design a novel five-dimensional evaluation strategy assessing answer correctness, process correctness, process quality, auxiliary line impact, and error causes. Extensive experiments on 13 leading MLLMs (including thinking models and non-thinking models) yield three pivotal findings: First, models exhibit substantial performance degradation in extended reasoning steps (nine models demonstrate over 50% performance drop). Second, compared to calculation problems, MLLMs tend to take shortcuts when solving proving problems. Third, models lack auxiliary line awareness, and enhancing this capability proves particularly beneficial for overall geometry reasoning improvement. These findings establish GeoLaux as both a benchmark for evaluating MLLMs' long-step geometric reasoning with auxiliary lines and a guide for capability advancement. Our dataset and code are included in supplementary materials and will be released.
- Abstract(参考訳): 幾何学的問題解決(GPS)は、図の理解、論理的推論、知識応用、数値計算、補助線構築をマスターするモデルを必要とする。
これは、MLLM(Multimodal Large Language Models)にとって重要な課題である。
しかし、MLLMの幾何学的スキルを評価するための既存のベンチマークは、補助的なライン構築を見落とし、きめ細かなプロセス評価を欠いているため、MLLMの長期推論能力を評価するには不十分である。
これらのギャップを埋めるために,2,186の幾何学的問題を含むGeoLauxベンチマークを提案する。
特に、問題は平均6.51の推論ステップが必要であり、最大24ステップであり、41.8%は補助線建設が必要である。
このデータセットに基づいて,回答の正しさ,プロセスの正しさ,プロセスの品質,補助ラインの影響,エラー原因を評価する新しい5次元評価戦略を設計する。
13の主要なMLLM(思考モデルと非思考モデルを含む)に関する大規模な実験では、3つの重要な結果が得られた。
第二に、計算問題と比較すると、MLLMは証明問題の解法においてショートカットを行う傾向がある。
第三に、モデルは補助的な線認識を欠き、この能力を強化することは、全体的な幾何学的推論の改善に特に有益である。
これらの結果から,GeoLauxはMLLMの長期的幾何学的推論を補助線で評価するためのベンチマークであり,能力向上のためのガイドであることがわかった。
私たちのデータセットとコードは補足資料に含まれており、リリースされます。
関連論文リスト
- Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - Improving Multimodal LLMs Ability In Geometry Problem Solving, Reasoning, And Multistep Scoring [34.37450586634531]
本稿では,LVLM(Large Vision Language Models)の問題解決能力を高めるため,GPSM4Kを提案する。
GPSM4Kは7~12年生の数学教科書から手作業で抽出した2157個の質問応答対を含んでいる。
このデータセットは、LVLMの幾何学的推論能力を評価するための優れたベンチマークとなる。
論文 参考訳(メタデータ) (2024-12-01T15:19:23Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。