論文の概要: MalruleLib: Large-Scale Executable Misconception Reasoning with Step Traces for Modeling Student Thinking in Mathematics
- arxiv url: http://arxiv.org/abs/2601.03217v1
- Date: Tue, 06 Jan 2026 17:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.050614
- Title: MalruleLib: Large-Scale Executable Misconception Reasoning with Step Traces for Modeling Student Thinking in Mathematics
- Title(参考訳): MalruleLib: 数学の学生思考をモデル化するためのステップトレース付き大規模実行可能な誤解推論
- Authors: Xinghe Chen, Naiming Liu, Shashank Sonkar,
- Abstract要約: MalruleLibは、ドキュメント化された誤解を実行可能なプロシージャに変換するフレームワークである。
我々は,Malrule Reasoning Accuracy (MRA) として,中核的な学生モデリング問題を定式化した。
MalruleLibは、498のパラメータ化された問題テンプレートに101の不正をエンコードし、正しい推論と不正一貫性のある学生推論の両方のためにペア化されたデュアルパストレースを生成する。
- 参考スコア(独自算出の注目度): 3.014383190334378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Student mistakes in mathematics are often systematic: a learner applies a coherent but wrong procedure and repeats it across contexts. We introduce MalruleLib, a learning-science-grounded framework that translates documented misconceptions into executable procedures, drawing on 67 learning-science and mathematics education sources, and generates step-by-step traces of malrule-consistent student work. We formalize a core student-modeling problem as Malrule Reasoning Accuracy (MRA): infer a misconception from one worked mistake and predict the student's next answer under cross-template rephrasing. Across nine language models (4B-120B), accuracy drops from 66% on direct problem solving to 40% on cross-template misconception prediction. MalruleLib encodes 101 malrules over 498 parameterized problem templates and produces paired dual-path traces for both correct reasoning and malrule-consistent student reasoning. Because malrules are executable and templates are parameterizable, MalruleLib can generate over one million instances, enabling scalable supervision and controlled evaluation. Using MalruleLib, we observe cross-template degradations of 10-21%, while providing student step traces improves prediction by 3-15%. We release MalruleLib as infrastructure for educational AI that models student procedures across contexts, enabling diagnosis and feedback that targets the underlying misconception.
- Abstract(参考訳): 数学における学生の誤りは、しばしば体系的である: 学習者は、一貫性はあるが間違った手順を適用し、文脈を越えてそれを繰り返す。
文献的誤解を実行可能な手順に変換する学習科学基礎フレームワークであるMalruleLibを紹介し,67の学習科学・数学教育ソースをベースとした学習科学・数学教育資料を作成し,マルル一貫性のある学生作品の段階的トレースを生成する。
我々は,Malrule Reasoning Accuracy (MRA) として,学生のコアモデリング問題を定式化した。
9つの言語モデル (4B-120B) にまたがる精度は66%から40%に低下する。
MalruleLibは、498のパラメータ化された問題テンプレートに101の不正をエンコードし、正しい推論と不正一貫性のある学生推論の両方のためにペア化されたデュアルパストレースを生成する。
Malruleは実行可能であり、テンプレートはパラメータ化可能であるため、MalruleLibは100万以上のインスタンスを生成し、スケーラブルな監視と制御された評価を可能にする。
MalruleLibを用いて10~21%のクロステンポレート劣化を観測し、学生のステップトレースを提供することで、予測が3~15%向上した。
私たちはMalruleLibを、コンテキストを越えた学生の手続きをモデル化し、基礎となる誤解をターゲットとした診断とフィードバックを可能にする、教育AIの基盤としてリリースしています。
関連論文リスト
- Can Large Reasoning Models Improve Accuracy on Mathematical Tasks Using Flawed Thinking? [0.0]
思考の連鎖(CoT)の促進は、大きな言語モデルにおける数学的推論の中心となっている。
故意に欠陥のある推論トレースのトレーニングが、そのようなエラーを検出して回復するモデルを教えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2025-12-18T21:20:21Z) - ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates [51.633266497799745]
思考テンプレートのスケーリングによる階層的LLM推論は、推論検索空間を効果的に最適化することができる。
i)類似または関連する推論問題に一般化可能な500ほどの高レベルな思考テンプレートを含む構造化・汎用的な思考テンプレートライブラリ,(ii)長いCoTではなく一連の思考テンプレート上で階層的な強化学習を行う,(iii)全く新しい推論スケーリングシステム,の3つの革新を紹介した。
論文 参考訳(メタデータ) (2025-02-10T18:51:47Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。