論文の概要: Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems
- arxiv url: http://arxiv.org/abs/2009.11506v2
- Date: Fri, 9 Oct 2020 01:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:50:08.747512
- Title: Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems
- Title(参考訳): Ape210K: 数学語問題の大規模かつテンプレートリッチなデータセット
- Authors: Wei Zhao, Mingyue Shang, Yang Liu, Liang Wang, Jingming Liu
- Abstract要約: 我々はApe210Kという,大規模でテンプレートに富んだ単語問題データセットを新たにリリースした。
210Kの小学校レベルの数学問題で構成されており、これは最大のデータセットであるMath23Kの9倍の大きさである。
Ape210Kは56Kテンプレートで、Math23Kの25倍の多様性がある。
- 参考スコア(独自算出の注目度): 15.136256980902509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic math word problem solving has attracted growing attention in recent
years. The evaluation datasets used by previous works have serious limitations
in terms of scale and diversity. In this paper, we release a new large-scale
and template-rich math word problem dataset named Ape210K. It consists of 210K
Chinese elementary school-level math problems, which is 9 times the size of the
largest public dataset Math23K. Each problem contains both the gold answer and
the equations needed to derive the answer. Ape210K is also of greater diversity
with 56K templates, which is 25 times more than Math23K. Our analysis shows
that solving Ape210K requires not only natural language understanding but also
commonsense knowledge. We expect Ape210K to be a benchmark for math word
problem solving systems. Experiments indicate that state-of-the-art models on
the Math23K dataset perform poorly on Ape210K. We propose a copy-augmented and
feature-enriched sequence to sequence (seq2seq) model, which outperforms
existing models by 3.2% on the Math23K dataset and serves as a strong baseline
of the Ape210K dataset. The gap is still significant between human and our
baseline model, calling for further research efforts. We make Ape210K dataset
publicly available at https://github.com/yuantiku/ape210k
- Abstract(参考訳): 近年,自動算数語の問題解決が注目されている。
以前の研究で使用された評価データセットは、スケールと多様性に関して重大な制限がある。
本稿では,Ape210Kという大規模かつテンプレートに富んだ単語問題データセットを新たにリリースする。
210Kの中国の小学校レベルの数学問題で構成されており、これは最大のデータセットMath23Kの9倍の大きさである。
各問題は金の答えと解を得るのに必要な方程式の両方を含んでいる。
Ape210Kは56Kテンプレートで、Math23Kの25倍の多様性がある。
Ape210Kを解くには、自然言語だけでなく常識知識も必要である。
Ape210Kは算術語問題解決システムのためのベンチマークになるだろう。
実験によると、math23kデータセットの最先端のモデルは、ape210kでは性能が悪い。
本稿では,既存モデルのmath23kデータセットを3.2%上回り,ap210kデータセットの強いベースラインとして機能するseq2seqモデルを提案する。
このギャップは、人間と私たちのベースラインモデルの間でも重要なものであり、さらなる研究努力を求めている。
Ape210Kデータセットをhttps://github.com/yuantiku/ape210kで公開しています。
関連論文リスト
- Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - MATHWELL: Generating Educational Math Word Problems at Scale [12.66360106561406]
教育を行うためには,(1)解決可能,(2)正確,(3)適切でなければならない。
我々は,専門家アノテーションから得られたデータを用いて,K-8数学語問題を生成するために繰り返し微調整されたLlama-2 (70B)モデルであるMATHWELLを紹介する。
MATHWELLを用いて、20,490個の問題を含むPoT(Program of Thought)論理を用いた最大英語単語問題データセットを生成する。
論文 参考訳(メタデータ) (2024-02-24T17:08:45Z) - TinyGSM: achieving >80% on GSM8k with small language models [49.21136294791747]
小型モデルは様々な計算上の利点を提供するが、どの程度の大きさが問題解決能力にとって重要なのかは未解決のままである。
特に小学校の数学を解くために、GSM8Kベンチマークの80%の障壁を破るために必要なモデルサイズは、まだ34Bである。
我々の研究は、数学的な推論を得るための小さな言語モデルにとって、高品質なデータセットがどのように鍵となるかを研究する。
論文 参考訳(メタデータ) (2023-12-14T18:58:28Z) - UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language
Models [94.71699322751327]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - Tackling Math Word Problems with Fine-to-Coarse Abstracting and
Reasoning [22.127301797950572]
本稿では,局所的なきめ細かい情報と,その大域的な論理構造の両方を捉えるために,微粒な方法で数学語問題をモデル化することを提案する。
我々のモデルは局所的な変動に自然に敏感であり、目に見えない問題タイプにより良い一般化が可能である。
論文 参考訳(メタデータ) (2022-05-17T12:14:44Z) - An Automated Question-Answering Framework Based on Evolution Algorithm [19.054115603616513]
複数のデータセットに対してネットワークアーキテクチャを調整可能な自動質問応答フレームワークを提案する。
本フレームワークはSQuAD 1.1では78.9 EM,86.1 F1,SQuAD 2.0では69.9 EM,72.5 F1を実現している。
論文 参考訳(メタデータ) (2022-01-26T08:13:24Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z) - Reverse Operation based Data Augmentation for Solving Math Word Problems [37.26159426631031]
最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。
本稿では,数学用語問題の数学的論理を逆転する新しいデータ拡張法を提案する。
2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。
論文 参考訳(メタデータ) (2020-10-04T11:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。