論文の概要: WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct
- arxiv url: http://arxiv.org/abs/2308.09583v1
- Date: Fri, 18 Aug 2023 14:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:46:31.854085
- Title: WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct
- Title(参考訳): WizardMath:強化Evol-Instructによる大規模言語モデルの数学的推論
- Authors: Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang
Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Dongmei Zhang
- Abstract要約: 本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
- 参考スコア(独自算出の注目度): 128.89645483139236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), such as GPT-4, have shown remarkable
performance in natural language processing (NLP) tasks, including challenging
mathematical reasoning. However, most existing open-source models are only
pre-trained on large-scale internet data and without math-related optimization.
In this paper, we present WizardMath, which enhances the mathematical reasoning
abilities of Llama-2, by applying our proposed Reinforcement Learning from
Evol-Instruct Feedback (RLEIF) method to the domain of math. Through extensive
experiments on two mathematical reasoning benchmarks, namely GSM8k and MATH, we
reveal the extraordinary capabilities of our model. WizardMath surpasses all
other open-source LLMs by a substantial margin. Furthermore, our model even
outperforms ChatGPT-3.5, Claude Instant-1, PaLM-2 and Minerva on GSM8k,
simultaneously surpasses Text-davinci-002, PaLM-1 and GPT-3 on MATH. More
details and model weights are public at https://github.com/nlpxucan/WizardLM
and https://huggingface.co/WizardLM.
- Abstract(参考訳): GPT-4のような大規模言語モデル(LLM)は、難解な数学的推論を含む自然言語処理(NLP)タスクにおいて顕著な性能を示している。
しかし、既存のほとんどのオープンソースモデルは、大規模なインターネットデータにのみ事前訓練されており、数学関連の最適化はない。
本稿では,evol-instruct feedback(rleif)法による強化学習を数学の領域に適用することにより,llama-2の数学的推論能力を高めるウィザード数学を提案する。
GSM8kとMATHという2つの数学的推論ベンチマークの広範な実験を通して、我々のモデルが持つ異常な能力を明らかにする。
WizardMathは、他のオープンソース LLM をかなり上回っている。
さらに,GSM8kではChatGPT-3.5,Claude Instant-1,PaLM-2,Minervaよりも優れており,MATHではText-davinci-002,PaLM-1,GPT-3を上回っている。
詳細とモデルウェイトはhttps://github.com/nlpxucan/WizardLMとhttps://huggingface.co/WizardLMで公開されている。
関連論文リスト
- Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning [2.9104279358536647]
数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを提案する。
ツールの補完的な利点として、知識検索(Bing Web Search)、プログラムジェネレータ+エグゼキュータ(Python)、記号方程式ソルバ(Wolfram-Alpha API)について検討する。
論文 参考訳(メタデータ) (2024-02-27T05:50:35Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - Mathematical Capabilities of ChatGPT [35.71603158908465]
GHOSTSとminiGHOSTSの2つの新しいデータセットをリリースしています。
これらは、数学の研究者によって計算された最初の自然言語データセットである。
モデルを、詳細なパフォーマンス指標でベンチマークします。
論文 参考訳(メタデータ) (2023-01-31T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。