論文の概要: AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
- arxiv url: http://arxiv.org/abs/2412.15084v1
- Date: Thu, 19 Dec 2024 17:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:55.105159
- Title: AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
- Title(参考訳): AceMath: ポストトレーニングとリワードモデリングによるフロンティア数学推論の促進
- Authors: Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping,
- Abstract要約: AceMathは、複雑な数学問題の解法に優れたフロンティア数学モデルのスイートである。
我々は報酬モデルとしてAceMath-72B-InstructとAceMath-72B-RMを開発した。
AceMath-72B-RMとAceMath-72B-RMを組み合わせると、数学推論ベンチマークの平均rm@8スコアが得られる。
- 参考スコア(独自算出の注目度): 46.51639868437127
- License:
- Abstract: In this paper, we introduce AceMath, a suite of frontier math models that excel in solving complex math problems, along with highly effective reward models capable of evaluating generated solutions and reliably identifying the correct ones. To develop the instruction-tuned math models, we propose a supervised fine-tuning (SFT) process that first achieves competitive performance across general domains, followed by targeted fine-tuning for the math domain using a carefully curated set of prompts and synthetically generated responses. The resulting model, AceMath-72B-Instruct greatly outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop math-specialized reward model, we first construct AceMath-RewardBench, a comprehensive and robust benchmark for evaluating math reward models across diverse problems and difficulty levels. After that, we present a systematic approach to build our math reward models. The resulting model, AceMath-72B-RM, consistently outperforms state-of-the-art reward models. Furthermore, when combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest average rm@8 score across the math reasoning benchmarks. We will release model weights, training data, and evaluation benchmarks at: https://research.nvidia.com/labs/adlr/acemath
- Abstract(参考訳): 本稿では、複雑な数学問題の解法に優れたフロンティア数学モデルの集合であるAceMathと、生成した解を評価し、正しい解を確実に特定できる高効率な報酬モデルを紹介する。
命令調整型数学モデルを開発するために,まず一般領域間での競合性能を実現する教師付き微調整(SFT)プロセスを提案し,その後,慎重に計算された一連のプロンプトと合成された応答を用いて,数学領域を対象とした微調整を行う。
その結果、AceMath-72B-InstructはQwen2.5-Math-72B-Instruct、GPT-4o、Claude-3.5 Sonnetを大きく上回った。
AceMath-RewardBenchは様々な問題や難易度で数学報酬モデルを評価するための総合的かつ堅牢なベンチマークである。
その後、数学報酬モデルを構築するための体系的なアプローチを提案する。
得られたモデルであるAceMath-72B-RMは、常に最先端の報酬モデルを上回っている。
さらに, AceMath-72B-Instruct と AceMath-72B-RM を組み合わせると, 数学推論ベンチマークの平均 rm@8 スコアが達成される。
モデルウェイト、トレーニングデータ、評価ベンチマークをhttps://research.nvidia.com/labs/adlr/acemathでリリースします。
関連論文リスト
- UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [8.582930981424528]
本稿では,広範囲な単体テストを通じてモデルをしっかりと評価する UTMath Benchmark を紹介する。
9つの数学領域にまたがる1,053の問題で構成され、1つの問題に対して68以上のテストケースがある。
我々は、LLMがコードを生成する前に明示的な推論を実行することを奨励するReasoning-to-Coding of Thoughts(RCoT)アプローチを導入する。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning [24.68321102981711]
本稿では,数理推論にコードアシストと自己補正を併用した思考の分解を利用した大規模言語モデル(LLM)について紹介する。
DotaMathモデルは複雑な数学的タスクに対処し、それらをより単純な論理的なサブタスクに分解し、コードを利用してこれらのサブタスクを解決する。
そこで我々は,DotaMathQAの模倣学習を用いて,オープンソースのLLMと比較して優れた性能を示すDotaMathモデルを訓練した。
論文 参考訳(メタデータ) (2024-07-04T17:39:16Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文 参考訳(メタデータ) (2023-09-11T17:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。