論文の概要: Measuring Mathematical Problem Solving With the MATH Dataset
- arxiv url: http://arxiv.org/abs/2103.03874v1
- Date: Fri, 5 Mar 2021 18:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 15:07:21.051689
- Title: Measuring Mathematical Problem Solving With the MATH Dataset
- Title(参考訳): MATHデータセットによる数学的問題解決の測定
- Authors: Dan Hendrycks and Collin Burns and Saurav Kadavath and Akul Arora and
Steven Basart and Eric Tang and Dawn Song and Jacob Steinhardt
- Abstract要約: 12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
- 参考スコア(独自算出の注目度): 55.4376028963537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many intellectual endeavors require mathematical problem solving, but this
skill remains beyond the capabilities of computers. To measure this ability in
machine learning models, we introduce MATH, a new dataset of 12,500 challenging
competition mathematics problems. Each problem in MATH has a full step-by-step
solution which can be used to teach models to generate answer derivations and
explanations. To facilitate future research and increase accuracy on MATH, we
also contribute a large auxiliary pretraining dataset which helps teach models
the fundamentals of mathematics. Even though we are able to increase accuracy
on MATH, our results show that accuracy remains relatively low, even with
enormous Transformer models. Moreover, we find that simply increasing budgets
and model parameter counts will be impractical for achieving strong
mathematical reasoning if scaling trends continue. While scaling Transformers
is automatically solving most other text-based tasks, scaling is not currently
solving MATH. To have more traction on mathematical problem solving we will
likely need new algorithmic advancements from the broader research community.
- Abstract(参考訳): 多くの知的努力は数学的問題解決を必要とするが、このスキルはコンピュータの能力を超えている。
この能力を機械学習モデルで測定するために、12,500の競合数学問題からなる新しいデータセットであるMATHを紹介する。
MATHの各問題には完全なステップバイステップのソリューションがあり、モデルに答えの導出と説明を生成するために使用することができる。
今後の研究の促進とMATHの精度向上のために,我々は,モデルに数学の基礎を教えるための補助的事前学習データセットを大規模に提供した。
計算精度は向上できたが, 膨大なトランスフォーマーモデルにおいても, 計算精度は比較的低いことが判明した。
さらに,スケーリングの傾向が続くと,単に予算やモデルパラメータの数を増やすだけでは,強力な数学的推論を達成できないことが判明した。
Transformersのスケーリングは他のほとんどのテキストベースのタスクを自動的に解決しますが、スケーリングは現在MATHを解決していません。
数学的な問題解決にもっと力を入れるためには、より広い研究コミュニティからの新しいアルゴリズムの進歩が必要だ。
関連論文リスト
- MathLearner: A Large Language Model Agent Framework for Learning to Solve Mathematical Problems [0.936726079405677]
本稿では,帰納的推論に基づく数学的問題を解くためのエージェントフレームワークを提案する。
学習情報の一般化に関する人間の学習過程をエミュレートすることにより、この枠組みは数学的推論プロセスにおいて優れた性能を発揮する。
我々のモデルは個人化された学習支援として利用でき、教育資源の不平等を軽減できる。
論文 参考訳(メタデータ) (2024-08-03T13:28:19Z) - AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。
多様で挑戦的な数学の質問には、控えめな需要がある。
本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:55:36Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning [2.9104279358536647]
数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを提案する。
ツールの補完的な利点として、知識検索(Bing Web Search)、プログラムジェネレータ+エグゼキュータ(Python)、記号方程式ソルバ(Wolfram-Alpha API)について検討する。
論文 参考訳(メタデータ) (2024-02-27T05:50:35Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - A Survey of Deep Learning for Mathematical Reasoning [71.88150173381153]
我々は過去10年間の数学的推論とディープラーニングの交差点における重要なタスク、データセット、方法についてレビューする。
大規模ニューラルネットワークモデルの最近の進歩は、新しいベンチマークと、数学的推論にディープラーニングを使用する機会を開放している。
論文 参考訳(メタデータ) (2022-12-20T18:46:16Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Reverse Operation based Data Augmentation for Solving Math Word Problems [37.26159426631031]
最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。
本稿では,数学用語問題の数学的論理を逆転する新しいデータ拡張法を提案する。
2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。
論文 参考訳(メタデータ) (2020-10-04T11:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。