論文の概要: MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs
- arxiv url: http://arxiv.org/abs/2402.16352v1
- Date: Mon, 26 Feb 2024 07:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:25:56.207693
- Title: MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs
- Title(参考訳): MathGenie: LLMの数学的推論を促進するための質問バック翻訳による合成データの生成
- Authors: Zimu Lu, Aojun Zhou, Houxing Ren, Ke Wang, Weikang Shi, Junting Pan,
Mingjie Zhan, Hongsheng Li
- Abstract要約: MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
- 参考スコア(独自算出の注目度): 39.769464414087935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited great potential in mathematical
reasoning. However, there remains a performance gap in this area between
existing open-source models and closed-source models such as GPT-4. In this
paper, we introduce MathGenie, a novel method for generating diverse and
reliable math problems from a small-scale problem-solution dataset (denoted as
seed data). We augment the ground-truth solutions of our seed data and train a
back-translation model to translate the augmented solutions back into new
questions. Subsequently, we generate code-integrated solutions for the new
questions. To ensure the correctness of the code-integrated solutions, we
employ rationale-based strategy for solution verification. Various pretrained
models, ranging from 7B to 70B, are trained on the newly curated data to test
the effectiveness of the proposed augmentation technique, resulting in a family
of models known as MathGenieLM. These models consistently outperform previous
open-source models across five representative mathematical reasoning datasets,
achieving state-of-the-art performance. In particular, MathGenieLM-InternLM2
achieves an accuracy of 87.7% on GSM8K and 55.7% on MATH, securing the best
overall score among open-source language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論に大きな可能性を示した。
しかし、既存のオープンソースモデルとGPT-4のようなクローズドソースモデルの間には、この分野のパフォーマンスギャップが残っている。
本稿では,小規模問題解決データセット(シードデータとして記述)から多種多様な数学問題を生成する新しい手法であるMathGenieを紹介する。
シードデータの地味なソリューションを強化し、バックトランスレーションモデルをトレーニングして、拡張されたソリューションを新たな質問に翻訳します。
その後、新しい質問に対するコード統合ソリューションを生成する。
コード統合型ソリューションの正確性を確保するために,ソリューション検証に合理的な戦略を採用する。
7Bから70Bまで、様々な事前訓練されたモデルは、新しいキュレートされたデータに基づいてトレーニングされ、提案手法の有効性を検証し、MathGenieLMとして知られるモデルのファミリーとなる。
これらのモデルは、5つの代表的な数学的推論データセットで以前のオープンソースモデルより一貫して優れており、最先端のパフォーマンスを実現している。
特にMathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルの中で最高のスコアを確保している。
関連論文リスト
- ControlMath: Controllable Data Generation Promotes Math Generalist Models [38.0858432336873]
方程式生成モジュールと2つの LLM ベースのエージェントを含む反復的手法である ControlMath を提案する。
モジュールは多種多様な方程式を生成し、それを問題職人のエージェントが算術語問題に変換する。
ControlMathQAは190kの数学語問題を含む。
論文 参考訳(メタデータ) (2024-09-20T03:58:26Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Benchmarking Large Language Models for Math Reasoning Tasks [12.91916443702145]
我々は、4つの強力な基礎モデル上の5つの広く使われている数学的データセットの数学的問題解決のための、最先端の文脈内学習アルゴリズムを7つ比較した。
以上の結果から, GPT-4o や LLaMA 3-70B のような大規模基盤モデルでは, 具体的なプロンプト戦略とは独立に数学的推論を解くことが可能であることが示唆された。
将来の研究で追加モデルの統合をサポートするために、ベンチマークコードをオープンソースにしています。
論文 参考訳(メタデータ) (2024-08-20T13:34:17Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文 参考訳(メタデータ) (2023-09-11T17:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。