論文の概要: MATHWELL: Generating Age-Appropriate Educational Math Word Problems
- arxiv url: http://arxiv.org/abs/2402.15861v4
- Date: Tue, 16 Apr 2024 13:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:56:09.933846
- Title: MATHWELL: Generating Age-Appropriate Educational Math Word Problems
- Title(参考訳): MATHWELL: 年齢に応じた教育用単語問題の生成
- Authors: Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen,
- Abstract要約: 教育を行うためには,(1)解決可能,(2)正確,(3)適切でなければならない。
既存のデータセットはこれらの基準にラベルが付けられていないため、問題生成者のトレーニングには適していない。
ドメインエキスパートアノテーションを使用して、このタスクのために高品質な合成トレーニングデータセットをキュレートします。
我々は、このデータを用いてLlama-2(70B)を微調整し、K-8ワード問題生成器MATHWELLを作成することで、このデータの価値を示す。
- 参考スコア(独自算出の注目度): 11.267553596118743
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. To address this gap, we use domain expert annotation to curate a high-quality synthetic training dataset for this task. We show the value of this data by using it to iteratively finetune Llama-2 (70B) to create MATHWELL, a K-8 word problem generator. Domain experts find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than existing open-source models, with 74% of its problems with executable solutions being solvable, accurate, and appropriate. MATHWELL achieves 94.9% of GPT-4 Turbo's performance on this task while outputting problems written at a more appropriate reading level for K-8 students. MATHWELL's performance despite being trained by finetuning only highlights the quality of our synthetic data for training age-appropriate word problem generators. We release our model, data, and annotations.
- Abstract(参考訳): 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、ドメインの専門知識を必要とする。
問題の自動生成により,K-8の数学教育を支援する言語モデルを提案する。
教育のためには、生成された問題は必要である。
1)解決可能。
2)正確で,かつ
3) 適当。
既存のデータセットはこれらの基準にラベルが付けられていないため、問題生成者のトレーニングには適していない。
このギャップに対処するために、ドメインエキスパートアノテーションを使用して、このタスクのために高品質な合成トレーニングデータセットをキュレートします。
K-8ワード問題生成器MATHWELLを作成するために,Llama-2 (70B) を反復的に微調整する手法を用いて,このデータの価値を示す。
ドメインの専門家は、MATHWELLが既存のオープンソースモデルよりも実行可能ソリューションを持ち、すべての基準を満たす問題の割合が40%高く、実行可能ソリューションに関する問題の74%が解決可能で正確で適切であると考えている。
MATHWELL は GPT-4 Turbo の94.9%をこのタスクで達成し、K-8 の学生にとってより適切な読解レベルで記述された問題を出力する。
MATHWELLの性能は微調整で訓練されているにもかかわらず、年齢に適した単語生成装置を訓練するための合成データの品質のみを強調している。
私たちはモデル、データ、アノテーションをリリースします。
関連論文リスト
- Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula [25.549869705051606]
我々は,言語モデル(LM)の数学的能力が,数学コンテンツによって実現されるスキルや概念を識別できるかどうかを検討する。
本研究では,算数問題を評価するためのLMの能力を評価するための2つのタスクを開発する。
LMは、問題に関連する標準をタグ付けして検証し、代わりに、真実に近いが微妙な方法で異なるラベルを予測するのに苦労している。
論文 参考訳(メタデータ) (2024-08-08T05:28:34Z) - Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process [47.753284211200665]
言語モデルの最近の進歩は、数学的推論問題を解く能力を示している。
本研究は,言語モデルが数学的問題を解くための隠された多くのメカニズムを明らかにする。
論文 参考訳(メタデータ) (2024-07-29T17:52:40Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。
それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。
我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [42.148511874019256]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。
提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。
数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文 参考訳(メタデータ) (2024-06-27T17:37:31Z) - Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文 参考訳(メタデータ) (2024-02-16T22:24:13Z) - MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。
このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文 参考訳(メタデータ) (2023-05-23T21:44:56Z) - Automatic Generation of Socratic Subquestions for Teaching Math Word
Problems [16.97827669744673]
本稿では,大言語モデル (LM) が数学用語の問題解決を導くためのシーケンシャルな質問を生成する能力について検討する。
自動品質評価と人的品質評価の両方において,所望の質問特性に制約されたLMが優れた質問を生成することがわかった。
その結果,課題の難易度は,質問が人間のパフォーマンスを損なうか否かを判断する上で重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2022-11-23T10:40:22Z) - Why are NLP Models Fumbling at Elementary Math? A Survey of Deep
Learning based Word Problem Solvers [7.299537282917047]
単語問題を解くために開発された様々なモデルについて批判的に検討する。
学術的な関心が豊富にあるにもかかわらず、主に使われている実験とデータセットの設計がいまだに停滞している理由を、一歩後退して分析する。
論文 参考訳(メタデータ) (2022-05-31T10:51:25Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。