論文の概要: LLMs cannot spot math errors, even when allowed to peek into the solution
- arxiv url: http://arxiv.org/abs/2509.01395v1
- Date: Mon, 01 Sep 2025 11:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.668044
- Title: LLMs cannot spot math errors, even when allowed to peek into the solution
- Title(参考訳): LLMは、たとえ解を覗いても、数学の誤りを発見できない
- Authors: KV Aditya Srivatsa, Kaushal Kumar Maurya, Ekaterina Kochmar,
- Abstract要約: 本稿では,VtG と PRM800K という2つの誤り推論データセットを用いて,ステップワイズ・ソリューションにおける第1のエラーステップを特定することの課題について検討する。
実験の結果, 従来のLLMでは, 参照ソリューションへのアクセスが許された場合でも, 学生ソリューションの最初のエラーステップを見つけるのに苦労していることがわかった。
そこで本研究では,学生の解とより緊密に整合して,中間修正学生解を生成する手法を提案する。
- 参考スコア(独自算出の注目度): 17.91547969168414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate remarkable performance on math word problems, yet they have been shown to struggle with meta-reasoning tasks such as identifying errors in student solutions. In this work, we investigate the challenge of locating the first error step in stepwise solutions using two error reasoning datasets: VtG and PRM800K. Our experiments show that state-of-the-art LLMs struggle to locate the first error step in student solutions even when given access to the reference solution. To that end, we propose an approach that generates an intermediate corrected student solution, aligning more closely with the original student's solution, which helps improve performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は数学の単語問題において顕著な性能を示すが、学生の解法における誤りの識別などのメタ推論に苦慮している。
本稿では,VtG と PRM800K という2つの誤り推論データセットを用いて,ステップワイズ・ソリューションにおける最初のエラーステップを見つけるという課題について検討する。
実験の結果, 従来のLLMでは, 参照ソリューションへのアクセスが許された場合でも, 学生ソリューションの最初のエラーステップを見つけるのに苦労していることがわかった。
そこで本研究では,中間修正学生ソリューションを生成する手法を提案する。
関連論文リスト
- Solving Math Word Problems Using Estimation Verification and Equation Generation [10.770851135821657]
大きな言語モデル(LLM)は、問題解決や質問応答など、様々なタスクに優れています。
近年の取り組みは、LLMがより複雑な数学語問題を、改良されたプロンプトで解くのに役立っている。
本研究では,まず LLM に質問の分解から方程式を生成させ,次いで外部記号方程式解法を用いて解を求める手法を提案する。
論文 参考訳(メタデータ) (2025-09-23T02:41:39Z) - Step-Wise Formal Verification for LLM-Based Mathematical Problem Solving [3.2233767737586674]
LLM(Large Language Models)は、数学的な問題を解く上で、強大な能力を示す。
本稿では,形式化と批判を含むMATH-VFフレームワークを提案する。
我々は,MATH500とProcessBenchという,広く利用されている数学ベンチマークの枠組みを評価した。
論文 参考訳(メタデータ) (2025-05-27T08:21:07Z) - A Knapsack by Any Other Name: Presentation impacts LLM performance on NP-hard problems [64.05451567422342]
自然言語で表現されたNPハード問題の集合であるEveryday Hard Optimization Problems (EHOP) のデータセットを紹介する。
EHOPには、コンピュータサイエンスの教科書(例えば、グラフカラー化)で見られる問題の定式化が含まれている。
複数のプロンプト戦略にまたがる最先端のLCMは、実生活や逆転よりも正確な教科書問題を解くことができる。
論文 参考訳(メタデータ) (2025-02-19T14:39:59Z) - Ask-Before-Detection: Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions [16.815772962323628]
Ask-Before-Detect (AskBD) フレームワークを導入し,大規模言語モデル(LLM)を用いて適応参照ソリューションを生成し,エラー検出を強化する。
GSM8Kの200例の実験では、AskBDがバイアスを効果的に軽減し、性能を向上させることが示されている。
論文 参考訳(メタデータ) (2024-12-22T03:08:36Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。
挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。
我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文 参考訳(メタデータ) (2023-10-16T04:11:19Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Learning by Fixing: Solving Math Word Problems with Weak Supervision [70.62896781438694]
数学用語問題(mwps)の従来のニューラルネットワークソルバは、完全な監視によって学習され、多様なソリューションを生み出すことができない。
MWPを学習するためのテキスト弱教師付きパラダイムを提案する。
この手法は最終回答のアノテーションのみを必要とし、単一の問題に対して様々な解決策を生成できる。
論文 参考訳(メタデータ) (2020-12-19T03:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。