論文の概要: Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems
- arxiv url: http://arxiv.org/abs/2009.11506v2
- Date: Fri, 9 Oct 2020 01:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:50:08.747512
- Title: Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems
- Title(参考訳): Ape210K: 数学語問題の大規模かつテンプレートリッチなデータセット
- Authors: Wei Zhao, Mingyue Shang, Yang Liu, Liang Wang, Jingming Liu
- Abstract要約: 我々はApe210Kという,大規模でテンプレートに富んだ単語問題データセットを新たにリリースした。
210Kの小学校レベルの数学問題で構成されており、これは最大のデータセットであるMath23Kの9倍の大きさである。
Ape210Kは56Kテンプレートで、Math23Kの25倍の多様性がある。
- 参考スコア(独自算出の注目度): 15.136256980902509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic math word problem solving has attracted growing attention in recent
years. The evaluation datasets used by previous works have serious limitations
in terms of scale and diversity. In this paper, we release a new large-scale
and template-rich math word problem dataset named Ape210K. It consists of 210K
Chinese elementary school-level math problems, which is 9 times the size of the
largest public dataset Math23K. Each problem contains both the gold answer and
the equations needed to derive the answer. Ape210K is also of greater diversity
with 56K templates, which is 25 times more than Math23K. Our analysis shows
that solving Ape210K requires not only natural language understanding but also
commonsense knowledge. We expect Ape210K to be a benchmark for math word
problem solving systems. Experiments indicate that state-of-the-art models on
the Math23K dataset perform poorly on Ape210K. We propose a copy-augmented and
feature-enriched sequence to sequence (seq2seq) model, which outperforms
existing models by 3.2% on the Math23K dataset and serves as a strong baseline
of the Ape210K dataset. The gap is still significant between human and our
baseline model, calling for further research efforts. We make Ape210K dataset
publicly available at https://github.com/yuantiku/ape210k
- Abstract(参考訳): 近年,自動算数語の問題解決が注目されている。
以前の研究で使用された評価データセットは、スケールと多様性に関して重大な制限がある。
本稿では,Ape210Kという大規模かつテンプレートに富んだ単語問題データセットを新たにリリースする。
210Kの中国の小学校レベルの数学問題で構成されており、これは最大のデータセットMath23Kの9倍の大きさである。
各問題は金の答えと解を得るのに必要な方程式の両方を含んでいる。
Ape210Kは56Kテンプレートで、Math23Kの25倍の多様性がある。
Ape210Kを解くには、自然言語だけでなく常識知識も必要である。
Ape210Kは算術語問題解決システムのためのベンチマークになるだろう。
実験によると、math23kデータセットの最先端のモデルは、ape210kでは性能が悪い。
本稿では,既存モデルのmath23kデータセットを3.2%上回り,ap210kデータセットの強いベースラインとして機能するseq2seqモデルを提案する。
このギャップは、人間と私たちのベースラインモデルの間でも重要なものであり、さらなる研究努力を求めている。
Ape210Kデータセットをhttps://github.com/yuantiku/ape210kで公開しています。
関連論文リスト
- ControlMath: Controllable Data Generation Promotes Math Generalist Models [38.0858432336873]
方程式生成モジュールと2つの LLM ベースのエージェントを含む反復的手法である ControlMath を提案する。
モジュールは多種多様な方程式を生成し、それを問題職人のエージェントが算術語問題に変換する。
ControlMathQAは190kの数学語問題を含む。
論文 参考訳(メタデータ) (2024-09-20T03:58:26Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning [54.2093509928664]
大規模言語モデルを用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実験的に有効である。
本研究では,数理推論におけるそのようなデータ拡張に関する調査を行い,これらの疑問に答えることを意図している。
コードと拡張データはhttps://github.com/OFA-Sys/8k-Scel.comで公開しています。
論文 参考訳(メタデータ) (2023-10-09T08:18:58Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - Tackling Math Word Problems with Fine-to-Coarse Abstracting and
Reasoning [22.127301797950572]
本稿では,局所的なきめ細かい情報と,その大域的な論理構造の両方を捉えるために,微粒な方法で数学語問題をモデル化することを提案する。
我々のモデルは局所的な変動に自然に敏感であり、目に見えない問題タイプにより良い一般化が可能である。
論文 参考訳(メタデータ) (2022-05-17T12:14:44Z) - An Automated Question-Answering Framework Based on Evolution Algorithm [19.054115603616513]
複数のデータセットに対してネットワークアーキテクチャを調整可能な自動質問応答フレームワークを提案する。
本フレームワークはSQuAD 1.1では78.9 EM,86.1 F1,SQuAD 2.0では69.9 EM,72.5 F1を実現している。
論文 参考訳(メタデータ) (2022-01-26T08:13:24Z) - Reverse Operation based Data Augmentation for Solving Math Word Problems [37.26159426631031]
最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。
本稿では,数学用語問題の数学的論理を逆転する新しいデータ拡張法を提案する。
2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。
論文 参考訳(メタデータ) (2020-10-04T11:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。