論文の概要: MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations
- arxiv url: http://arxiv.org/abs/2402.15861v5
- Date: Fri, 27 Sep 2024 11:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 06:55:15.522120
- Title: MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations
- Title(参考訳): MATHWELL:教師アノテーションを用いた教育用数学語問題の生成
- Authors: Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen,
- Abstract要約: 我々は,言語モデルが単語問題を自動的に生成することで,K-8の数学教育を支援する可能性を示唆する。
我々のモデルであるMATHWELLは、教育的適切性を重視した最初のK-8ワード問題生成装置である。
- 参考スコア(独自算出の注目度): 11.267553596118743
- License:
- Abstract: Math word problems are critical K-8 educational tools, but writing them is time consuming and requires extensive expertise. To be educational, problems must be solvable, have accurate answers, and, most importantly, be educationally appropriate. We propose that language models have potential to support K-8 math education by automatically generating word problems. However, evaluating educational appropriateness is hard to quantify. We fill this gap by having teachers evaluate problems generated by LLMs, who find existing models and data often fail to be educationally appropriate. We then explore automatically generating educational word problems, ultimately using our expert annotations to finetune a 70B language model. Our model, MATHWELL, is the first K-8 word problem generator targeted at educational appropriateness. Further expert studies find MATHWELL generates problems far more solvable, accurate, and appropriate than public models. MATHWELL also matches GPT-4's problem quality while attaining more appropriate reading levels for K-8 students and avoiding generating harmful questions.
- Abstract(参考訳): 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、広範囲の専門知識を必要とする。
教育のためには、問題は解決可能であり、正確な答えを持ち、そして最も重要なことは、教育的に適切である必要がある。
我々は,言語モデルが単語問題を自動的に生成することで,K-8の数学教育を支援する可能性を示唆する。
しかし、教育的適切性を評価することは難しい。
我々は、既存のモデルやデータが教育的に適切でない場合が多いLLMが生み出す問題を教師に評価させることで、このギャップを埋める。
そして、教育用語の問題を自動生成し、最終的に専門家のアノテーションを使って70B言語モデルを微調整します。
我々のモデルであるMATHWELLは、教育的適切性を重視した最初のK-8ワード問題生成装置である。
さらなる専門的な研究により、MATHWELLは公開モデルよりもはるかに解決可能で正確で適切な問題を発生させる。
MATHWELLはまた、K-8の生徒にとってより適切な読解レベルを獲得しながら、GPT-4の問題品質と一致し、有害な質問を発生させない。
関連論文リスト
- MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。
それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。
我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [44.26207937607838]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。
提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。
数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文 参考訳(メタデータ) (2024-06-27T17:37:31Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
自然言語フィードバック強化検証手法である textbfMath-Minos を提案する。
実験の結果,自然言語フィードバックの小さなセット(30k)が検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs [39.769464414087935]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文 参考訳(メタデータ) (2024-02-16T22:24:13Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - Stacking of Hyperparameter Tuned Models for Tagging Coding Problems [0.0]
コーディングの問題は、学生やプロの間で人気があり、彼らのスキルとキャリアの機会を高める。
コーディング問題を実践する人たちを助けるAIシステムは、非常に有用であり、そのようなシステムには大きな可能性がある。
論文 参考訳(メタデータ) (2023-06-16T03:45:48Z) - Generate & Rank: A Multi-task Framework for Math Word Problems [48.99880318686938]
数学語問題(MWP)は自然言語処理において困難かつ重要な課題である。
生成事前学習型言語モデルに基づくフレームワークであるGenerate & Rankを提案する。
生成とランキングの併用トレーニングによって、モデルは自身のミスから学習し、正しい表現と間違った表現を区別することができる。
論文 参考訳(メタデータ) (2021-09-07T12:21:49Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z) - Reverse Operation based Data Augmentation for Solving Math Word Problems [37.26159426631031]
最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。
本稿では,数学用語問題の数学的論理を逆転する新しいデータ拡張法を提案する。
2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。
論文 参考訳(メタデータ) (2020-10-04T11:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。