Fugu-MT 論文翻訳(概要): MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations

論文の概要: MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations

arxiv url: http://arxiv.org/abs/2402.15861v5
Date: Fri, 27 Sep 2024 11:28:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 04:32:42.298716
Title: MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations
Title（参考訳）: MATHWELL:教師アノテーションを用いた教育用数学語問題の生成
Authors: Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen,
Abstract要約: 我々は,言語モデルが単語問題を自動的に生成することで,K-8の数学教育を支援する可能性を示唆する。我々のモデルであるMATHWELLは、教育的適切性を重視した最初のK-8ワード問題生成装置である。
参考スコア（独自算出の注目度）: 11.267553596118743
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Math word problems are critical K-8 educational tools, but writing them is time consuming and requires extensive expertise. To be educational, problems must be solvable, have accurate answers, and, most importantly, be educationally appropriate. We propose that language models have potential to support K-8 math education by automatically generating word problems. However, evaluating educational appropriateness is hard to quantify. We fill this gap by having teachers evaluate problems generated by LLMs, who find existing models and data often fail to be educationally appropriate. We then explore automatically generating educational word problems, ultimately using our expert annotations to finetune a 70B language model. Our model, MATHWELL, is the first K-8 word problem generator targeted at educational appropriateness. Further expert studies find MATHWELL generates problems far more solvable, accurate, and appropriate than public models. MATHWELL also matches GPT-4's problem quality while attaining more appropriate reading levels for K-8 students and avoiding generating harmful questions.
Abstract（参考訳）: 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、広範囲の専門知識を必要とする。教育のためには、問題は解決可能であり、正確な答えを持ち、そして最も重要なことは、教育的に適切である必要がある。我々は,言語モデルが単語問題を自動的に生成することで,K-8の数学教育を支援する可能性を示唆する。しかし、教育的適切性を評価することは難しい。我々は、既存のモデルやデータが教育的に適切でない場合が多いLLMが生み出す問題を教師に評価させることで、このギャップを埋める。そして、教育用語の問題を自動生成し、最終的に専門家のアノテーションを使って70B言語モデルを微調整します。我々のモデルであるMATHWELLは、教育的適切性を重視した最初のK-8ワード問題生成装置である。さらなる専門的な研究により、MATHWELLは公開モデルよりもはるかに解決可能で正確で適切な問題を発生させる。 MATHWELLはまた、K-8の生徒にとってより適切な読解レベルを獲得しながら、GPT-4の問題品質と一致し、有害な質問を発生させない。

関連論文リスト

MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula [25.549869705051606]
我々は,言語モデル(LM)の数学的能力が,数学コンテンツによって実現されるスキルや概念を識別できるかどうかを検討する。本研究では,算数問題を評価するためのLMの能力を評価するための2つのタスクを開発する。 LMは、問題に関連する標準をタグ付けして検証し、代わりに、真実に近いが微妙な方法で異なるラベルを予測するのに苦労している。
論文参考訳（メタデータ） (2024-08-08T05:28:34Z)
Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process [47.753284211200665]
言語モデルの最近の進歩は、数学的推論問題を解く能力を示している。本研究は,言語モデルが数学的問題を解くための隠された多くのメカニズムを明らかにする。
論文参考訳（メタデータ） (2024-07-29T17:52:40Z)
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。 LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文参考訳（メタデータ） (2024-07-12T10:11:40Z)
MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文参考訳（メタデータ） (2024-07-01T01:56:28Z)
DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [42.148511874019256]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文参考訳（メタデータ） (2024-06-27T17:37:31Z)
Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文参考訳（メタデータ） (2024-02-16T22:24:13Z)
MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文参考訳（メタデータ） (2023-05-23T21:44:56Z)
Automatic Generation of Socratic Subquestions for Teaching Math Word Problems [16.97827669744673]
本稿では,大言語モデル (LM) が数学用語の問題解決を導くためのシーケンシャルな質問を生成する能力について検討する。自動品質評価と人的品質評価の両方において,所望の質問特性に制約されたLMが優れた質問を生成することがわかった。その結果,課題の難易度は,質問が人間のパフォーマンスを損なうか否かを判断する上で重要な役割を担っていることが示唆された。
論文参考訳（メタデータ） (2022-11-23T10:40:22Z)
Why are NLP Models Fumbling at Elementary Math? A Survey of Deep Learning based Word Problem Solvers [7.299537282917047]
単語問題を解くために開発された様々なモデルについて批判的に検討する。学術的な関心が豊富にあるにもかかわらず、主に使われている実験とデータセットの設計がいまだに停滞している理由を、一歩後退して分析する。
論文参考訳（メタデータ） (2022-05-31T10:51:25Z)
Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文参考訳（メタデータ） (2021-03-05T18:59:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。