論文の概要: Is Mathematical Problem-Solving Expertise in Large Language Models Associated with Assessment Performance?
- arxiv url: http://arxiv.org/abs/2603.25633v1
- Date: Thu, 26 Mar 2026 16:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.385474
- Title: Is Mathematical Problem-Solving Expertise in Large Language Models Associated with Assessment Performance?
- Title(参考訳): 大規模言語モデルにおける数学的問題解決の専門知識は評価性能に結びつくか?
- Authors: Liang Zhang, Yu Fu, Xinyi Jin,
- Abstract要約: より強力な数学問題解決能力が、より強力なステップレベルの評価性能に結びついているかどうかは不明だ。
本研究では,GSM8KとProcessBENCHのMATHサブセットとの関係について検討した。
- 参考スコア(独自算出の注目度): 8.840705133076877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in math education not only as problem solvers but also as assessors of learners' reasoning. However, it remains unclear whether stronger math problem-solving ability is associated with stronger step-level assessment performance. This study examines that relationship using the GSM8K and MATH subsets of PROCESSBENCH, a human-annotated benchmark for identifying the earliest erroneous step in mathematical reasoning. We evaluate two LLM-based math tutor agent settings, instantiated with GPT-4 and GPT-5, in two independent tasks on the same math problems: solving the original problem and assessing a benchmark-provided solution by predicting the earliest erroneous step. Results show a consistent within-model pattern: assessment accuracy is substantially higher on math problem items the same model solved correctly than on items it solved incorrectly, with statistically significant associations across both models and datasets. At the same time, assessment remains more difficult than direct problem solving, especially on error-present solutions. These findings suggest that math problem-solving expertise supports stronger assessment performance, but reliable step-level diagnosis also requires additional capabilities such as step tracking, monitoring, and precise error localization. The results have implications for the design and evaluation of AI-supported Adaptive Instructional Systems (AISs) for formative assessment in math education.
- Abstract(参考訳): 大規模言語モデル (LLMs) は数学教育において問題解法だけでなく、学習者の推論のアセスメントとしても用いられるようになっている。
しかし、より強力な数学問題解決能力がより強力なステップレベルの評価性能に結びついているかどうかは不明である。
本研究では,GSM8KとProcessBENCHのMATHサブセットとの関係について検討した。
GPT-4 と GPT-5 でインスタンス化した 2 つの LLM ベースの数学チューターエージェントの設定を,同一の数学問題に対する2 つの独立したタスクで評価する。
評価精度は、数学の問題項目において、不正に解決した項目よりも、同じモデルを正しく解き、モデルとデータセットの両方に統計的に有意な関連がある。
同時に、アセスメントは直接的な問題解決よりも困難であり、特にエラーを提示するソリューションでは困難である。
これらの結果から,数学の問題解決の専門知識が評価性能の向上を支援することが示唆されるが,信頼度の高い段階診断には,ステップトラッキングやモニタリング,正確なエラー位置推定などの追加機能が必要である。
その結果、数学教育における形式的評価のためのAIS(Adaptive Instructional Systems)の設計と評価に影響を及ぼす。
関連論文リスト
- IMProofBench: Benchmarking AI on Research-Level Mathematical Proof Generation [4.991157581428135]
IMProofBenchは、専門家数学者によって開発された39のピアレビューされた問題からなるプライベートベンチマークである。
それぞれの問題は詳細な証明を必要とし、最終的な答えを持つサブプロブレムと組み合わせられる。
以前のベンチマークとは異なり、評価設定は現実的な研究環境をシミュレートする。
論文 参考訳(メタデータ) (2025-09-30T10:50:37Z) - Mathematical Computation and Reasoning Errors by Large Language Models [3.0309252269809264]
大規模言語モデル(LLM)は、AIによる教育指導と評価にますます活用されている。
本研究は,算術,代数学,数論を含む3分野の数学課題を解く4つの LLM の精度を評価することに焦点を当てる。
推理強化された OpenAI o1 モデルが3つの数学タスクのカテゴリで常に高い精度またはほぼ完璧な精度を達成したことが観察された。
論文 参考訳(メタデータ) (2025-08-13T16:33:02Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。