論文の概要: MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs
- arxiv url: http://arxiv.org/abs/2402.16352v2
- Date: Wed, 11 Sep 2024 08:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 21:47:34.612657
- Title: MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs
- Title(参考訳): MathGenie: LLMの数学的推論を促進するための質問バック翻訳による合成データの生成
- Authors: Zimu Lu, Aojun Zhou, Houxing Ren, Ke Wang, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li,
- Abstract要約: MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
- 参考スコア(独自算出の注目度): 38.127313175508746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited great potential in mathematical reasoning. However, there remains a performance gap in this area between existing open-source models and closed-source models such as GPT-4. In this paper, we introduce MathGenie, a novel method for generating diverse and reliable math problems from a small-scale problem-solution dataset (denoted as seed data). We augment the ground-truth solutions of our seed data and train a back-translation model to translate the augmented solutions back into new questions. Subsequently, we generate code-integrated solutions for the new questions. To ensure the correctness of the code-integrated solutions, we employ rationale-based strategy for solution verification. Various pretrained models, ranging from 7B to 70B, are trained on the newly curated data to test the effectiveness of the proposed augmentation technique, resulting in a family of models known as MathGenieLM. These models consistently outperform previous open-source models across five representative mathematical reasoning datasets, achieving state-of-the-art performance. In particular, MathGenieLM-InternLM2 achieves an accuracy of 87.7% on GSM8K and 55.7% on MATH, securing the best overall score among open-source language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論に大きな可能性を示した。
しかし、既存のオープンソースモデルとGPT-4のようなクローズドソースモデルの間には、この分野にはまだパフォーマンスのギャップがある。
本稿では,小規模問題解決データセット(シードデータとして記述)から多種多様な数学問題を生成する新しい手法であるMathGenieを紹介する。
シードデータの地味なソリューションを強化し、バックトランスレーションモデルをトレーニングして、拡張されたソリューションを新たな質問に翻訳します。
その後、新しい質問に対するコード統合ソリューションを生成する。
コード統合された解の正当性を確保するため、合理性に基づく解の検証手法を採用する。
7Bから70Bまで、様々な事前訓練されたモデルは、新しいキュレートされたデータに基づいてトレーニングされ、提案手法の有効性を検証し、MathGenieLMとして知られるモデルのファミリーとなる。
これらのモデルは、5つの代表的な数学的推論データセットで以前のオープンソースモデルより一貫して優れており、最先端のパフォーマンスを実現している。
特にMathGenieLM-InternLM2は、GSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルの中で最高のスコアを確保している。
関連論文リスト
- Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - Augmenting Math Word Problems via Iterative Question Composing [8.186291374940595]
本稿では,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。
Qwen-72B-MMIQCは45.0%の精度を達成し、以前のオープンソースの現状を8.2%上回っている。
論文 参考訳(メタデータ) (2024-01-17T06:48:16Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文 参考訳(メタデータ) (2023-09-11T17:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。