論文の概要: MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning
- arxiv url: http://arxiv.org/abs/2310.03731v1
- Date: Thu, 5 Oct 2023 17:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 13:06:47.543694
- Title: MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning
- Title(参考訳): MathCoder: 拡張数学的推論のためのLLMにおけるシームレスコード統合
- Authors: Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi,
Renrui Zhang, Linqi Song, Mingjie Zhan, Hongsheng Li
- Abstract要約: 本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
- 参考スコア(独自算出の注目度): 52.97768001837269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently released GPT-4 Code Interpreter has demonstrated remarkable
proficiency in solving challenging math problems, primarily attributed to its
ability to seamlessly reason with natural language, generate code, execute
code, and continue reasoning based on the execution output. In this paper, we
present a method to fine-tune open-source language models, enabling them to use
code for modeling and deriving math equations and, consequently, enhancing
their mathematical reasoning abilities. We propose a method of generating novel
and high-quality datasets with math problems and their code-based solutions,
referred to as MathCodeInstruct. Each solution interleaves natural language,
code, and execution results. We also introduce a customized supervised
fine-tuning and inference approach. This approach yields the MathCoder models,
a family of models capable of generating code-based solutions for solving
challenging math problems. Impressively, the MathCoder models achieve
state-of-the-art scores among open-source LLMs on the MATH (45.2%) and GSM8K
(83.9%) datasets, substantially outperforming other open-source alternatives.
Notably, the MathCoder model not only surpasses ChatGPT-3.5 and PaLM-2 on GSM8K
and MATH but also outperforms GPT-4 on the competition-level MATH dataset. The
dataset and models will be released at https://github.com/mathllm/MathCoder.
- Abstract(参考訳): 先日リリースされたGPT-4 Code Interpreterは、自然言語でシームレスに推論し、コードを生成し、コードを実行し、実行出力に基づいて推論を継続する能力に起因した、難解な数学問題の解決に優れた能力を示した。
本稿では,オープンソースの言語モデルを微調整し,数式をモデル化し導出するためのコードの利用を可能にし,その数学的推論能力を向上させる手法を提案する。
本稿では,数学問題とそのコードベースソリューションを用いた,新規かつ高品質なデータセットの生成法を提案する。
各ソリューションは自然言語、コード、実行結果をインターリーブする。
また,教師付き微調整と推論をカスタマイズしたアプローチも導入する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
印象的なことに、MathCoderモデルは、MATH (45.2%) と GSM8K (83.9%) のデータセット上のオープンソース LLM のうち、最先端のスコアを獲得し、他のオープンソース代替よりも大幅に上回っている。
特に、MathCoderモデルは、GSM8KとMATHでChatGPT-3.5とPaLM-2を上回るだけでなく、競合レベルのMATHデータセットでGPT-4を上回っている。
データセットとモデルはhttps://github.com/mathllm/mathcoderでリリースされる。
関連論文リスト
- Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning [11.426127461122908]
この研究には、マルチパースペクティブなデータ拡張手法による新しい数学の質問が含まれ、その上でコードネストされたソリューションを合成する。
外部Pythonインタプリタと統合したオープン大言語モデル(LLM)は、数学的推論能力を大幅に強化した。
ステージ1では、純粋なCoTデータに基づいてLlama-2を微調整し、中間モデルを取得し、ステージ2のコードネストデータに基づいてトレーニングし、結果のMuMath-Codeを得る。
論文 参考訳(メタデータ) (2024-05-13T08:32:19Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset [8.080585423915075]
1.8M 問題解対を持つ数学指導用チューニングデータセット OpenMathInstruct-1 を構築した。
このデータセットは、2つの人気のある数学推論ベンチマークであるGSM8KとMATHのコード解釈ソリューションを合成することによって構築される。
我々の最良のモデルであるOpenMath-CodeLlama-70Bは、OpenMath Instruct-1のサブセットでトレーニングされ、GSM8Kで84.6%、MATHで50.7%のスコアを得た。
論文 参考訳(メタデータ) (2024-02-15T18:26:11Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。