論文の概要: MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs
- arxiv url: http://arxiv.org/abs/2402.16352v1
- Date: Mon, 26 Feb 2024 07:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:25:56.207693
- Title: MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs
- Title(参考訳): MathGenie: LLMの数学的推論を促進するための質問バック翻訳による合成データの生成
- Authors: Zimu Lu, Aojun Zhou, Houxing Ren, Ke Wang, Weikang Shi, Junting Pan,
Mingjie Zhan, Hongsheng Li
- Abstract要約: MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
- 参考スコア(独自算出の注目度): 39.769464414087935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited great potential in mathematical
reasoning. However, there remains a performance gap in this area between
existing open-source models and closed-source models such as GPT-4. In this
paper, we introduce MathGenie, a novel method for generating diverse and
reliable math problems from a small-scale problem-solution dataset (denoted as
seed data). We augment the ground-truth solutions of our seed data and train a
back-translation model to translate the augmented solutions back into new
questions. Subsequently, we generate code-integrated solutions for the new
questions. To ensure the correctness of the code-integrated solutions, we
employ rationale-based strategy for solution verification. Various pretrained
models, ranging from 7B to 70B, are trained on the newly curated data to test
the effectiveness of the proposed augmentation technique, resulting in a family
of models known as MathGenieLM. These models consistently outperform previous
open-source models across five representative mathematical reasoning datasets,
achieving state-of-the-art performance. In particular, MathGenieLM-InternLM2
achieves an accuracy of 87.7% on GSM8K and 55.7% on MATH, securing the best
overall score among open-source language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論に大きな可能性を示した。
しかし、既存のオープンソースモデルとGPT-4のようなクローズドソースモデルの間には、この分野のパフォーマンスギャップが残っている。
本稿では,小規模問題解決データセット(シードデータとして記述)から多種多様な数学問題を生成する新しい手法であるMathGenieを紹介する。
シードデータの地味なソリューションを強化し、バックトランスレーションモデルをトレーニングして、拡張されたソリューションを新たな質問に翻訳します。
その後、新しい質問に対するコード統合ソリューションを生成する。
コード統合型ソリューションの正確性を確保するために,ソリューション検証に合理的な戦略を採用する。
7Bから70Bまで、様々な事前訓練されたモデルは、新しいキュレートされたデータに基づいてトレーニングされ、提案手法の有効性を検証し、MathGenieLMとして知られるモデルのファミリーとなる。
これらのモデルは、5つの代表的な数学的推論データセットで以前のオープンソースモデルより一貫して優れており、最先端のパフォーマンスを実現している。
特にMathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルの中で最高のスコアを確保している。
関連論文リスト
- Key-Point-Driven Data Synthesis with its Enhancement on Mathematical
Reasoning [116.3631185427079]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示している。
KPMathは、現在までの数学的推論に適した、最も広範な合成データセットである。
KPMath-Plus上のMistral-7Bモデルを微調整すると、MATHテストセットでのPASS@1の精度は39.3%になる。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models [106.59263704052206]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on
Geometry Problem-Solving [42.87726507268092]
我々はGeoEvalベンチマーク、2000問題の主要サブセット、後方推論に焦点を当てた750問題サブセット、2000問題の拡張サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
このベンチマークは、数学問題の解法におけるLarge Language Models (LLMs) とMulti-Modal Models (MMs) の性能についてより深く研究することを促進する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは55.67%の精度で優れているが、6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - Augmenting Math Word Problems via Iterative Question Composing [8.186291374940595]
本稿では,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。
Qwen-72B-MMIQCは45.0%の精度を達成し、以前のオープンソースの現状を8.2%上回っている。
論文 参考訳(メタデータ) (2024-01-17T06:48:16Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文 参考訳(メタデータ) (2023-09-11T17:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。