論文の概要: LLMs cannot spot math errors, even when allowed to peek into the solution
- arxiv url: http://arxiv.org/abs/2509.01395v1
- Date: Mon, 01 Sep 2025 11:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.668044
- Title: LLMs cannot spot math errors, even when allowed to peek into the solution
- Title(参考訳): LLMは、たとえ解を覗いても、数学の誤りを発見できない
- Authors: KV Aditya Srivatsa, Kaushal Kumar Maurya, Ekaterina Kochmar,
- Abstract要約: 本稿では,VtG と PRM800K という2つの誤り推論データセットを用いて,ステップワイズ・ソリューションにおける第1のエラーステップを特定することの課題について検討する。
実験の結果, 従来のLLMでは, 参照ソリューションへのアクセスが許された場合でも, 学生ソリューションの最初のエラーステップを見つけるのに苦労していることがわかった。
そこで本研究では,学生の解とより緊密に整合して,中間修正学生解を生成する手法を提案する。
- 参考スコア(独自算出の注目度): 17.91547969168414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate remarkable performance on math word problems, yet they have been shown to struggle with meta-reasoning tasks such as identifying errors in student solutions. In this work, we investigate the challenge of locating the first error step in stepwise solutions using two error reasoning datasets: VtG and PRM800K. Our experiments show that state-of-the-art LLMs struggle to locate the first error step in student solutions even when given access to the reference solution. To that end, we propose an approach that generates an intermediate corrected student solution, aligning more closely with the original student's solution, which helps improve performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は数学の単語問題において顕著な性能を示すが、学生の解法における誤りの識別などのメタ推論に苦慮している。
本稿では,VtG と PRM800K という2つの誤り推論データセットを用いて,ステップワイズ・ソリューションにおける最初のエラーステップを見つけるという課題について検討する。
実験の結果, 従来のLLMでは, 参照ソリューションへのアクセスが許された場合でも, 学生ソリューションの最初のエラーステップを見つけるのに苦労していることがわかった。
そこで本研究では,中間修正学生ソリューションを生成する手法を提案する。
関連論文リスト
- Step-Wise Formal Verification for LLM-Based Mathematical Problem Solving [3.2233767737586674]
LLM(Large Language Models)は、数学的な問題を解く上で、強大な能力を示す。
本稿では,形式化と批判を含むMATH-VFフレームワークを提案する。
我々は,MATH500とProcessBenchという,広く利用されている数学ベンチマークの枠組みを評価した。
論文 参考訳(メタデータ) (2025-05-27T08:21:07Z) - Ask-Before-Detection: Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions [16.815772962323628]
Ask-Before-Detect (AskBD) フレームワークを導入し,大規模言語モデル(LLM)を用いて適応参照ソリューションを生成し,エラー検出を強化する。
GSM8Kの200例の実験では、AskBDがバイアスを効果的に軽減し、性能を向上させることが示されている。
論文 参考訳(メタデータ) (2024-12-22T03:08:36Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。
挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。
我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文 参考訳(メタデータ) (2023-10-16T04:11:19Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。