論文の概要: MATHWELL: Generating Age-Appropriate Educational Math Word Problems
- arxiv url: http://arxiv.org/abs/2402.15861v4
- Date: Tue, 16 Apr 2024 13:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:56:09.933846
- Title: MATHWELL: Generating Age-Appropriate Educational Math Word Problems
- Title(参考訳): MATHWELL: 年齢に応じた教育用単語問題の生成
- Authors: Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen,
- Abstract要約: 教育を行うためには,(1)解決可能,(2)正確,(3)適切でなければならない。
既存のデータセットはこれらの基準にラベルが付けられていないため、問題生成者のトレーニングには適していない。
ドメインエキスパートアノテーションを使用して、このタスクのために高品質な合成トレーニングデータセットをキュレートします。
我々は、このデータを用いてLlama-2(70B)を微調整し、K-8ワード問題生成器MATHWELLを作成することで、このデータの価値を示す。
- 参考スコア(独自算出の注目度): 11.267553596118743
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. To address this gap, we use domain expert annotation to curate a high-quality synthetic training dataset for this task. We show the value of this data by using it to iteratively finetune Llama-2 (70B) to create MATHWELL, a K-8 word problem generator. Domain experts find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than existing open-source models, with 74% of its problems with executable solutions being solvable, accurate, and appropriate. MATHWELL achieves 94.9% of GPT-4 Turbo's performance on this task while outputting problems written at a more appropriate reading level for K-8 students. MATHWELL's performance despite being trained by finetuning only highlights the quality of our synthetic data for training age-appropriate word problem generators. We release our model, data, and annotations.
- Abstract(参考訳): 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、ドメインの専門知識を必要とする。
問題の自動生成により,K-8の数学教育を支援する言語モデルを提案する。
教育のためには、生成された問題は必要である。
1)解決可能。
2)正確で,かつ
3) 適当。
既存のデータセットはこれらの基準にラベルが付けられていないため、問題生成者のトレーニングには適していない。
このギャップに対処するために、ドメインエキスパートアノテーションを使用して、このタスクのために高品質な合成トレーニングデータセットをキュレートします。
K-8ワード問題生成器MATHWELLを作成するために,Llama-2 (70B) を反復的に微調整する手法を用いて,このデータの価値を示す。
ドメインの専門家は、MATHWELLが既存のオープンソースモデルよりも実行可能ソリューションを持ち、すべての基準を満たす問題の割合が40%高く、実行可能ソリューションに関する問題の74%が解決可能で正確で適切であると考えている。
MATHWELL は GPT-4 Turbo の94.9%をこのタスクで達成し、K-8 の学生にとってより適切な読解レベルで記述された問題を出力する。
MATHWELLの性能は微調整で訓練されているにもかかわらず、年齢に適した単語生成装置を訓練するための合成データの品質のみを強調している。
私たちはモデル、データ、アノテーションをリリースします。
関連論文リスト
- Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs [39.769464414087935]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - Language Models as Science Tutors [80.5847894062664]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文 参考訳(メタデータ) (2024-02-16T22:24:13Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - Stacking of Hyperparameter Tuned Models for Tagging Coding Problems [0.0]
コーディングの問題は、学生やプロの間で人気があり、彼らのスキルとキャリアの機会を高める。
コーディング問題を実践する人たちを助けるAIシステムは、非常に有用であり、そのようなシステムには大きな可能性がある。
論文 参考訳(メタデータ) (2023-06-16T03:45:48Z) - Tackling Math Word Problems with Fine-to-Coarse Abstracting and
Reasoning [22.127301797950572]
本稿では,局所的なきめ細かい情報と,その大域的な論理構造の両方を捉えるために,微粒な方法で数学語問題をモデル化することを提案する。
我々のモデルは局所的な変動に自然に敏感であり、目に見えない問題タイプにより良い一般化が可能である。
論文 参考訳(メタデータ) (2022-05-17T12:14:44Z) - Generate & Rank: A Multi-task Framework for Math Word Problems [48.99880318686938]
数学語問題(MWP)は自然言語処理において困難かつ重要な課題である。
生成事前学習型言語モデルに基づくフレームワークであるGenerate & Rankを提案する。
生成とランキングの併用トレーニングによって、モデルは自身のミスから学習し、正しい表現と間違った表現を区別することができる。
論文 参考訳(メタデータ) (2021-09-07T12:21:49Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z) - Reverse Operation based Data Augmentation for Solving Math Word Problems [37.26159426631031]
最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。
本稿では,数学用語問題の数学的論理を逆転する新しいデータ拡張法を提案する。
2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。
論文 参考訳(メタデータ) (2020-10-04T11:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。