論文の概要: SMRC: Aligning Large Language Models with Student Reasoning for Mathematical Error Correction
- arxiv url: http://arxiv.org/abs/2511.14684v1
- Date: Tue, 18 Nov 2025 17:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.230352
- Title: SMRC: Aligning Large Language Models with Student Reasoning for Mathematical Error Correction
- Title(参考訳): SMRC:数学的誤り訂正のための学生推論による大規模言語モデルの調整
- Authors: Biaojie Zeng, Min Zhang, Juan Zhou, Fengrui Liu, Ruiyang Huang, Xin Lin,
- Abstract要約: 大規模言語モデル(LLM)は、数学的な問題を解く際にしばしば推論エラーを発生させる。
我々は,LLMを学生の推論と整合させる新しい手法であるtextttSMRC (textitunderlineStudent underline UnderlineReasoning underlineCorrection) を提案する。
- 参考スコア(独自算出の注目度): 13.864749522667273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often make reasoning errors when solving mathematical problems, and how to automatically detect and correct these errors has become an important research direction. However, existing approaches \textit{mainly focus on self-correction within the model}, which falls short of the ``teacher-style`` correction required in educational settings, \textit{i.e.}, systematically guiding and revising a student's problem-solving process. To address this gap, we propose \texttt{SMRC} (\textit{\underline{S}tudent \underline{M}athematical \underline{R}easoning \underline{C}orrection}), a novel method that aligns LLMs with student reasoning. Specifically, \texttt{SMRC} formulates student reasoning as a multi-step sequential decision problem and introduces Monte Carlo Tree Search (MCTS) to explore optimal correction paths. To reduce the cost of the annotating process-level rewards, we leverage breadth-first search (BFS) guided by LLMs and final-answer evaluation to generate reward signals, which are then distributed across intermediate reasoning steps via a back-propagation mechanism, enabling fine-grained process supervision. Additionally, we construct a benchmark for high school mathematics, MSEB (Multi-Solution Error Benchmark), consisting of 158 instances that include problem statements, student solutions, and correct reasoning steps. We further propose a dual evaluation protocol centered on \textbf{solution accuracy} and \textbf{correct-step retention}, offering a comprehensive measure of educational applicability. Experiments demonstrate that \texttt{SMRC} significantly outperforms existing methods on two public datasets (ProcessBench and MR-GSM8K) and our MSEB in terms of effectiveness and overall performance. The code and data are available at https://github.com/Mind-Lab-ECNU/SMRC.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的な問題を解く際にしばしば推論エラーを発生させ、これらの誤りを自動的に検出し、修正する方法が重要な研究方向となっている。
しかし、既存のアプローチである「textit{mainly focus on self-correction in the model}」は、教育環境において必要となる ``teacher-style`` の修正に不足している。
このギャップに対処するために, LLM を学生推論と整合させる新しい手法である \texttt{SMRC} (\textit{\underline{S}tudent \underline{M}athematical \underline{R}easoning \underline{C}orrection} を提案する。
具体的には、学生推論を多段階連続決定問題として定式化し、モンテカルロ木探索(MCTS)を導入して最適な補正経路を探索する。
注釈付きプロセスレベルの報酬のコストを低減するため,LLMによって導かれる広帯域探索(BFS)と最終回答評価を利用して報酬信号を生成し,その処理をバックプロパゲーション機構を介して中間的推論ステップに分散し,プロセスの詳細な監視を可能にする。
さらに,問題文,生徒ソリューション,正しい推論ステップを含む158のインスタンスからなる高校数学のベンチマークMSEB(Multi-Solution Error Benchmark)を構築した。
さらに, 教育適用可能性の総合的な尺度として, \textbf{solution accuracy} と \textbf{correct-step retention} を中心にした二重評価プロトコルを提案する。
ProcessBench と MR-GSM8K の2つの公開データセットと MSEB の既存の手法を,有効性と全体的な性能の観点から比較した。
コードとデータはhttps://github.com/Mind-Lab-ECNU/SMRCで公開されている。
関連論文リスト
- Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Improve Mathematical Reasoning in Language Models by Automated Process Supervision [23.807288360423193]
我々は,高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しい分割型モンテカルロ木探索アルゴリズムを提案する。
プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できます。
重み付けされた自己整合性アルゴリズムとともに、この完全に自動化されたプロセスの監督は、LLMの数学推論性能を向上させることができる。
論文 参考訳(メタデータ) (2024-06-05T19:25:40Z) - From Large to Tiny: Distilling and Refining Mathematical Expertise for Math Word Problems with Weakly Supervision [12.023661884821554]
本稿では,大規模言語モデルから小型言語モデルへの数学的知識の伝達を徹底的に行う,革新的な2段階のフレームワークを提案する。
提案手法は,探索型'確率方程式'ペアにおける意味理解機能を完全に活用する。
Math23KとWeak12Kデータセットでは、既存の小さなモデルメソッドと比較して大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-03-21T13:29:54Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Learning by Fixing: Solving Math Word Problems with Weak Supervision [70.62896781438694]
数学用語問題(mwps)の従来のニューラルネットワークソルバは、完全な監視によって学習され、多様なソリューションを生み出すことができない。
MWPを学習するためのテキスト弱教師付きパラダイムを提案する。
この手法は最終回答のアノテーションのみを必要とし、単一の問題に対して様々な解決策を生成できる。
論文 参考訳(メタデータ) (2020-12-19T03:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。