論文の概要: A Neural Network Solves and Generates Mathematics Problems by Program
Synthesis: Calculus, Differential Equations, Linear Algebra, and More
- arxiv url: http://arxiv.org/abs/2112.15594v2
- Date: Tue, 4 Jan 2022 17:35:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 11:44:38.228503
- Title: A Neural Network Solves and Generates Mathematics Problems by Program
Synthesis: Calculus, Differential Equations, Linear Algebra, and More
- Title(参考訳): プログラム合成による計算,微分方程式,線形代数学など,ニューラルネットワークが数学問題を解いて生成する
- Authors: Iddo Drori, Sunny Tran, Roman Wang, Newman Cheng, Kevin Liu, Leonard
Tang, Elizabeth Ke, Nikhil Singh, Taylor L. Patti, Jayson Lynch, Avi Shporer,
Nakul Verma, Eugene Wu, Gilbert Strang
- Abstract要約: 質問をプログラミングタスクに変換し、プログラムを自動的に生成し、実行します。
これは、大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。
- 参考スコア(独自算出の注目度): 8.437319139670116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that a neural network pre-trained on text and fine-tuned on
code solves Mathematics problems by program synthesis. We turn questions into
programming tasks, automatically generate programs, and then execute them,
perfectly solving university-level problems from MIT's large Mathematics
courses (Single Variable Calculus 18.01, Multivariable Calculus 18.02,
Differential Equations 18.03, Introduction to Probability and Statistics 18.05,
Linear Algebra 18.06, and Mathematics for Computer Science 6.042), Columbia
University's COMS3251 Computational Linear Algebra course, as well as questions
from a MATH dataset (on Prealgebra, Algebra, Counting and Probability, Number
Theory, and Precalculus), the latest benchmark of advanced mathematics problems
specifically designed to assess mathematical reasoning. We explore prompt
generation methods that enable Transformers to generate question solving
programs for these subjects, including solutions with plots. We generate
correct answers for a random sample of questions in each topic. We quantify the
gap between the original and transformed questions and perform a survey to
evaluate the quality and difficulty of generated questions. This is the first
work to automatically solve, grade, and generate university-level Mathematics
course questions at scale. This represents a milestone for higher education.
- Abstract(参考訳): テキストで事前学習し、コードで微調整したニューラルネットワークが、プログラム合成によって数学の問題を解くことを実証する。
We turn questions into programming tasks, automatically generate programs, and then execute them, perfectly solving university-level problems from MIT's large Mathematics courses (Single Variable Calculus 18.01, Multivariable Calculus 18.02, Differential Equations 18.03, Introduction to Probability and Statistics 18.05, Linear Algebra 18.06, and Mathematics for Computer Science 6.042), Columbia University's COMS3251 Computational Linear Algebra course, as well as questions from a MATH dataset (on Prealgebra, Algebra, Counting and Probability, Number Theory, and Precalculus), the latest benchmark of advanced mathematics problems specifically designed to assess mathematical reasoning.
提案手法では,プロットによる解を含む問題解決プログラムをトランスフォーマーが生成できるようにする。
各トピックにおけるランダムな質問のサンプルに対して正しい回答を生成する。
原質問と変換された質問のギャップを定量化し,生成した質問の品質と難易度を評価する調査を行う。
これは、大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。
これは高等教育のマイルストーンである。
関連論文リスト
- FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [2.0608396919601493]
FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。
現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。
AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
論文 参考訳(メタデータ) (2024-11-07T17:07:35Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - ChatGPT as a Math Questioner? Evaluating ChatGPT on Generating
Pre-university Math Questions [20.261452062585985]
大規模言語モデル (LLM) は論理的推論と算術的推論を含む多くのNLPタスクで優れている。
我々の分析は、コンテキスト認識とコンテキスト認識の2つの主要な設定に分類される。
われわれのクローリングの結果はTopicMathだ。これは大学以前の数学のカリキュラムを包括的で斬新なコレクションだ。
論文 参考訳(メタデータ) (2023-12-04T06:23:37Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - A Survey of Deep Learning for Mathematical Reasoning [71.88150173381153]
我々は過去10年間の数学的推論とディープラーニングの交差点における重要なタスク、データセット、方法についてレビューする。
大規模ニューラルネットワークモデルの最近の進歩は、新しいベンチマークと、数学的推論にディープラーニングを使用する機会を開放している。
論文 参考訳(メタデータ) (2022-12-20T18:46:16Z) - Limits of an AI program for solving college math problems [0.0]
ニューラルネットワークは、人間のレベルでのプログラム合成と少数ショット学習によって、大学の数学問題を解き、説明し、生成する。
彼らが記述したシステムは確かに印象的だが、上記の記述は非常に過大評価されている。
問題を解決する作業はニューラルネットワークではなく、シンボリック代数パッケージSympyによって行われる。
論文 参考訳(メタデータ) (2022-08-14T20:10:14Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Solving Linear Algebra by Program Synthesis [1.0660480034605238]
我々は、MITのLinear Algebra 18.06コースとコロンビア大学のComputational Linear Algebra COMS3251コースを、インタラクティブなプログラム合成によって完全な精度で解決する。
この驚くほど強い結果は、コース質問をプログラミングタスクに変換し、プログラムを実行して正しい回答を生成することで達成されます。
論文 参考訳(メタデータ) (2021-11-16T01:16:43Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。