Fugu-MT 論文翻訳(概要): MATHWELL: Generating Educational Math Word Problems at Scale

論文の概要: MATHWELL: Generating Educational Math Word Problems at Scale

arxiv url: http://arxiv.org/abs/2402.15861v3
Date: Fri, 1 Mar 2024 14:39:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-04 13:29:57.578472
Title: MATHWELL: Generating Educational Math Word Problems at Scale
Title（参考訳）: MATHWELL: 教育用数学語を大規模に生成する
Authors: Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen
Abstract要約: 教育を行うためには,(1)解決可能,(2)正確,(3)適切でなければならない。我々は,専門家アノテーションから得られたデータを用いて,K-8数学語問題を生成するために繰り返し微調整されたLlama-2 (70B)モデルであるMATHWELLを紹介する。 MATHWELLを用いて、20,490個の問題を含むPoT(Program of Thought)論理を用いた最大英語単語問題データセットを生成する。
参考スコア（独自算出の注目度）: 12.66360106561406
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems at scale. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. We introduce MATHWELL, a Llama-2 (70B) model iteratively finetuned to generate K-8 math word problems using data from expert annotation. Using MATHWELL, we generate the largest English word problem dataset with Program of Thought (PoT) rationales to date, containing 20,490 problems. 3,484 are scored by domain experts who find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than alternatives, with 74% of its problems with executable solutions being solvable, accurate, and appropriate. We release our model, data, and annotations.
Abstract（参考訳）: 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、ドメインの専門知識を必要とする。我々は,K-8の数学教育を支援する言語モデルを提案する。教育的であり生み出す問題は 1)解決可能。 2)正確で,かつ 3) 適当。既存のデータセットはこれらの基準にラベルを付けておらず、問題発生器のトレーニングに適していない。我々は,専門家アノテーションから得られたデータを用いて,K-8数学語問題を生成するために繰り返し微調整されたLlama-2 (70B)モデルMATHWELLを紹介する。 MATHWELLを用いて、20,490個の問題を含むPoT(Program of Thought)論理を用いた最大英語単語問題データセットを生成する。 3.484 は、MATHWELL が実行可能解を持ち、代替案よりも全ての基準を満たす問題の割合が40%高く、実行可能解の74%が解決可能で正確で適切である、というドメインの専門家によって評価されている。私たちはモデル、データ、アノテーションをリリースします。

関連論文リスト

Elementary Math Word Problem Generation using Large Language Models [0.7004392422347242]
大規模言語モデル(LLM)に基づくMWP生成システムを提案する。私たちのシステムへの唯一の入力は、必要となるMWPの数、グレード、質問の種類(加算、減算など)である。
論文参考訳（メタデータ） (2025-06-06T10:20:56Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula [25.549869705051606]
我々は,言語モデル(LM)の数学的能力が,数学コンテンツによって実現されるスキルや概念を識別できるかどうかを検討する。本研究では,算数問題を評価するためのLMの能力を評価するための2つのタスクを開発する。 LMは、問題に関連する標準をタグ付けして検証し、代わりに、真実に近いが微妙な方法で異なるラベルを予測するのに苦労している。
論文参考訳（メタデータ） (2024-08-08T05:28:34Z)
Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process [47.753284211200665]
言語モデルの最近の進歩は、数学的推論問題を解く能力を示している。本研究は,言語モデルが数学的問題を解くための隠された多くのメカニズムを明らかにする。
論文参考訳（メタデータ） (2024-07-29T17:52:40Z)
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。 LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文参考訳（メタデータ） (2024-07-12T10:11:40Z)
MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文参考訳（メタデータ） (2024-07-01T01:56:28Z)
DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [42.148511874019256]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文参考訳（メタデータ） (2024-06-27T17:37:31Z)
Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文参考訳（メタデータ） (2024-02-16T22:24:13Z)
MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文参考訳（メタデータ） (2023-05-23T21:44:56Z)
Automatic Generation of Socratic Subquestions for Teaching Math Word Problems [16.97827669744673]
本稿では,大言語モデル (LM) が数学用語の問題解決を導くためのシーケンシャルな質問を生成する能力について検討する。自動品質評価と人的品質評価の両方において,所望の質問特性に制約されたLMが優れた質問を生成することがわかった。その結果,課題の難易度は,質問が人間のパフォーマンスを損なうか否かを判断する上で重要な役割を担っていることが示唆された。
論文参考訳（メタデータ） (2022-11-23T10:40:22Z)
Why are NLP Models Fumbling at Elementary Math? A Survey of Deep Learning based Word Problem Solvers [7.299537282917047]
単語問題を解くために開発された様々なモデルについて批判的に検討する。学術的な関心が豊富にあるにもかかわらず、主に使われている実験とデータセットの設計がいまだに停滞している理由を、一歩後退して分析する。
論文参考訳（メタデータ） (2022-05-31T10:51:25Z)
Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文参考訳（メタデータ） (2021-03-05T18:59:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。