Fugu-MT 論文翻訳(概要): MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs

論文の概要: MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs

arxiv url: http://arxiv.org/abs/2402.16352v2
Date: Wed, 11 Sep 2024 08:23:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 21:47:34.612657
Title: MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs
Title（参考訳）: MathGenie: LLMの数学的推論を促進するための質問バック翻訳による合成データの生成
Authors: Zimu Lu, Aojun Zhou, Houxing Ren, Ke Wang, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li,
Abstract要約: MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。 7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。 MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
参考スコア（独自算出の注目度）: 38.127313175508746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have exhibited great potential in mathematical reasoning. However, there remains a performance gap in this area between existing open-source models and closed-source models such as GPT-4. In this paper, we introduce MathGenie, a novel method for generating diverse and reliable math problems from a small-scale problem-solution dataset (denoted as seed data). We augment the ground-truth solutions of our seed data and train a back-translation model to translate the augmented solutions back into new questions. Subsequently, we generate code-integrated solutions for the new questions. To ensure the correctness of the code-integrated solutions, we employ rationale-based strategy for solution verification. Various pretrained models, ranging from 7B to 70B, are trained on the newly curated data to test the effectiveness of the proposed augmentation technique, resulting in a family of models known as MathGenieLM. These models consistently outperform previous open-source models across five representative mathematical reasoning datasets, achieving state-of-the-art performance. In particular, MathGenieLM-InternLM2 achieves an accuracy of 87.7% on GSM8K and 55.7% on MATH, securing the best overall score among open-source language models.
Abstract（参考訳）: 大規模言語モデル(LLM)は、数学的推論に大きな可能性を示した。しかし、既存のオープンソースモデルとGPT-4のようなクローズドソースモデルの間には、この分野にはまだパフォーマンスのギャップがある。本稿では,小規模問題解決データセット(シードデータとして記述)から多種多様な数学問題を生成する新しい手法であるMathGenieを紹介する。シードデータの地味なソリューションを強化し、バックトランスレーションモデルをトレーニングして、拡張されたソリューションを新たな質問に翻訳します。その後、新しい質問に対するコード統合ソリューションを生成する。コード統合された解の正当性を確保するため、合理性に基づく解の検証手法を採用する。 7Bから70Bまで、様々な事前訓練されたモデルは、新しいキュレートされたデータに基づいてトレーニングされ、提案手法の有効性を検証し、MathGenieLMとして知られるモデルのファミリーとなる。これらのモデルは、5つの代表的な数学的推論データセットで以前のオープンソースモデルより一貫して優れており、最先端のパフォーマンスを実現している。特にMathGenieLM-InternLM2は、GSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルの中で最高のスコアを確保している。

関連論文リスト

Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
ControlMath: Controllable Data Generation Promotes Math Generalist Models [38.0858432336873]
方程式生成モジュールと2つの LLM ベースのエージェントを含む反復的手法である ControlMath を提案する。モジュールは多種多様な方程式を生成し、それを問題職人のエージェントが算術語問題に変換する。 ControlMathQAは190kの数学語問題を含む。
論文参考訳（メタデータ） (2024-09-20T03:58:26Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Benchmarking Large Language Models for Math Reasoning Tasks [12.91916443702145]
我々は、4つの強力な基礎モデル上の5つの広く使われている数学的データセットの数学的問題解決のための、最先端の文脈内学習アルゴリズムを7つ比較した。以上の結果から, GPT-4o や LLaMA 3-70B のような大規模基盤モデルでは, 具体的なプロンプト戦略とは独立に数学的推論を解くことが可能であることが示唆された。将来の研究で追加モデルの統合をサポートするために、ベンチマークコードをオープンソースにしています。
論文参考訳（メタデータ） (2024-08-20T13:34:17Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Augmenting Math Word Problems via Iterative Question Composing [7.493665644128088]
本稿では,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。 Qwen-72B-MMIQC は45.0%の精度を達成し、2023年にリリースされた最初のバージョン GPT-4 を8.2%上回った。
論文参考訳（メタデータ） (2024-01-17T06:48:16Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)
MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。 MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文参考訳（メタデータ） (2023-09-11T17:47:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。