Fugu-MT 論文翻訳(概要): Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems

論文の概要: Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems

arxiv url: http://arxiv.org/abs/2009.11506v2
Date: Fri, 9 Oct 2020 01:36:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-15 04:50:08.747512
Title: Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems
Title（参考訳）: Ape210K: 数学語問題の大規模かつテンプレートリッチなデータセット
Authors: Wei Zhao, Mingyue Shang, Yang Liu, Liang Wang, Jingming Liu
Abstract要約: 我々はApe210Kという,大規模でテンプレートに富んだ単語問題データセットを新たにリリースした。 210Kの小学校レベルの数学問題で構成されており、これは最大のデータセットであるMath23Kの9倍の大きさである。 Ape210Kは56Kテンプレートで、Math23Kの25倍の多様性がある。
参考スコア（独自算出の注目度）: 15.136256980902509
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic math word problem solving has attracted growing attention in recent years. The evaluation datasets used by previous works have serious limitations in terms of scale and diversity. In this paper, we release a new large-scale and template-rich math word problem dataset named Ape210K. It consists of 210K Chinese elementary school-level math problems, which is 9 times the size of the largest public dataset Math23K. Each problem contains both the gold answer and the equations needed to derive the answer. Ape210K is also of greater diversity with 56K templates, which is 25 times more than Math23K. Our analysis shows that solving Ape210K requires not only natural language understanding but also commonsense knowledge. We expect Ape210K to be a benchmark for math word problem solving systems. Experiments indicate that state-of-the-art models on the Math23K dataset perform poorly on Ape210K. We propose a copy-augmented and feature-enriched sequence to sequence (seq2seq) model, which outperforms existing models by 3.2% on the Math23K dataset and serves as a strong baseline of the Ape210K dataset. The gap is still significant between human and our baseline model, calling for further research efforts. We make Ape210K dataset publicly available at https://github.com/yuantiku/ape210k
Abstract（参考訳）: 近年,自動算数語の問題解決が注目されている。以前の研究で使用された評価データセットは、スケールと多様性に関して重大な制限がある。本稿では,Ape210Kという大規模かつテンプレートに富んだ単語問題データセットを新たにリリースする。 210Kの中国の小学校レベルの数学問題で構成されており、これは最大のデータセットMath23Kの9倍の大きさである。各問題は金の答えと解を得るのに必要な方程式の両方を含んでいる。 Ape210Kは56Kテンプレートで、Math23Kの25倍の多様性がある。 Ape210Kを解くには、自然言語だけでなく常識知識も必要である。 Ape210Kは算術語問題解決システムのためのベンチマークになるだろう。実験によると、math23kデータセットの最先端のモデルは、ape210kでは性能が悪い。本稿では,既存モデルのmath23kデータセットを3.2%上回り,ap210kデータセットの強いベースラインとして機能するseq2seqモデルを提案する。このギャップは、人間と私たちのベースラインモデルの間でも重要なものであり、さらなる研究努力を求めている。 Ape210Kデータセットをhttps://github.com/yuantiku/ape210kで公開しています。

関連論文リスト

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.31714779585272]
DeepMath-103Kは、高い難易度(主に5-9レベル)で設計された大規模な数学的データセットであるこれには、多数のベンチマークに対する厳格な除染、ルールベースのRL報酬に対する検証可能な回答が含まれる。 DeepMath-103Kは一般化可能な推論の進展を促進する。
論文参考訳（メタデータ） (2025-04-15T17:59:51Z)
Machine Learning meets Algebraic Combinatorics: A Suite of Datasets Capturing Research-level Conjecturing Ability in Pure Mathematics [4.229995708813431]
私たちはAlgebraic Combinatorics dataset Repository (ACD Repo)という新しいデータセットのコレクションを紹介します。各データセットには、オープンな研究レベルの質問と、サンプルの大規模なコレクションが含まれている。機械学習モデルを適用する方法の異なる9つのデータセットについて説明する。
論文参考訳（メタデータ） (2025-03-09T00:11:40Z)
Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models [11.706309334631985]
Big-Mathは、25万以上の高品質な数学の質問と、検証可能な回答のデータセットです。強化学習(RL)のためのBig-Math
論文参考訳（メタデータ） (2025-02-24T18:14:01Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文参考訳（メタデータ） (2025-01-31T18:48:08Z)
ControlMath: Controllable Data Generation Promotes Math Generalist Models [38.0858432336873]
方程式生成モジュールと2つの LLM ベースのエージェントを含む反復的手法である ControlMath を提案する。モジュールは多種多様な方程式を生成し、それを問題職人のエージェントが算術語問題に変換する。 ControlMathQAは190kの数学語問題を含む。
論文参考訳（メタデータ） (2024-09-20T03:58:26Z)
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。 Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文参考訳（メタデータ） (2024-06-25T05:43:21Z)
Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文参考訳（メタデータ） (2024-03-07T18:00:40Z)
MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。しかし、数学的な問題を解く能力は依然として不十分である。高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文参考訳（メタデータ） (2024-03-05T11:42:59Z)
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。 KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。 KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文参考訳（メタデータ） (2024-03-04T18:58:30Z)
MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning [54.2093509928664]
大規模言語モデルを用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実験的に有効である。本研究では,数理推論におけるそのようなデータ拡張に関する調査を行い,これらの疑問に答えることを意図している。コードと拡張データはhttps://github.com/OFA-Sys/8k-Scel.comで公開しています。
論文参考訳（メタデータ） (2023-10-09T08:18:58Z)
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文参考訳（メタデータ） (2023-09-21T17:45:42Z)
Tackling Math Word Problems with Fine-to-Coarse Abstracting and Reasoning [22.127301797950572]
本稿では,局所的なきめ細かい情報と,その大域的な論理構造の両方を捉えるために,微粒な方法で数学語問題をモデル化することを提案する。我々のモデルは局所的な変動に自然に敏感であり、目に見えない問題タイプにより良い一般化が可能である。
論文参考訳（メタデータ） (2022-05-17T12:14:44Z)
An Automated Question-Answering Framework Based on Evolution Algorithm [19.054115603616513]
複数のデータセットに対してネットワークアーキテクチャを調整可能な自動質問応答フレームワークを提案する。本フレームワークはSQuAD 1.1では78.9 EM,86.1 F1,SQuAD 2.0では69.9 EM,72.5 F1を実現している。
論文参考訳（メタデータ） (2022-01-26T08:13:24Z)
An Algorithm for Learning Smaller Representations of Models With Scarce Data [0.0]
本稿では,データセットが問題を完全に表現していない場合のバイナリ分類問題の解法を提案する。我々のアルゴリズムは、基礎となる分布の支持にある多様体をホモロジーに再構成することで機能する。
論文参考訳（メタデータ） (2020-10-15T19:17:51Z)
Reverse Operation based Data Augmentation for Solving Math Word Problems [37.26159426631031]
最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。本稿では,数学用語問題の数学的論理を逆転する新しいデータ拡張法を提案する。 2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。
論文参考訳（メタデータ） (2020-10-04T11:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。