論文の概要: Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement
- arxiv url: http://arxiv.org/abs/2409.12122v1
- Date: Wed, 18 Sep 2024 16:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 16:45:43.707073
- Title: Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement
- Title(参考訳): Qwen2.5-Math Technical Report: toward Mathematical Expert Model via Self-Improvement
- Authors: An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang,
- Abstract要約: Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。
Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
- 参考スコア(独自算出の注目度): 71.46993852662021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present a series of math-specific large language models: Qwen2.5-Math and Qwen2.5-Math-Instruct-1.5B/7B/72B. The core innovation of the Qwen2.5 series lies in integrating the philosophy of self-improvement throughout the entire pipeline, from pre-training and post-training to inference: (1) During the pre-training phase, Qwen2-Math-Instruct is utilized to generate large-scale, high-quality mathematical data. (2) In the post-training phase, we develop a reward model (RM) by conducting massive sampling from Qwen2-Math-Instruct. This RM is then applied to the iterative evolution of data in supervised fine-tuning (SFT). With a stronger SFT model, it's possible to iteratively train and update the RM, which in turn guides the next round of SFT data iteration. On the final SFT model, we employ the ultimate RM for reinforcement learning, resulting in the Qwen2.5-Math-Instruct. (3) Furthermore, during the inference stage, the RM is used to guide sampling, optimizing the model's performance. Qwen2.5-Math-Instruct supports both Chinese and English, and possess advanced mathematical reasoning capabilities, including Chain-of-Thought (CoT) and Tool-Integrated Reasoning (TIR). We evaluate our models on 10 mathematics datasets in both English and Chinese, such as GSM8K, MATH, GaoKao, AMC23, and AIME24, covering a range of difficulties from grade school level to math competition problems.
- Abstract(参考訳): 本稿では,Qwen2.5-MathとQwen2.5-Math-Instruct-1.5B/7B/72Bという,数学固有の大規模言語モデルについて述べる。
Qwen2.5シリーズの中核的な革新は、事前学習やポストトレーニングから推論まで、パイプライン全体を通して自己改善の哲学を統合することである。
2) 訓練後の段階では,Qwen2-Math-Instructから大量サンプリングを行うことで報奨モデル(RM)を開発する。
このRMは、教師付き微調整(SFT)におけるデータの反復的進化に適用される。
より強力なSFTモデルでは、RMを反復的にトレーニングし、更新することが可能です。
最終SFTモデルでは、最終的なRMを用いて強化学習を行い、Qwen2.5-Math-Instructとなる。
(3) 推論段階では, RMを用いてサンプリングを誘導し, モデルの性能を最適化する。
Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、Chain-of-Thought (CoT)やTool-Integrated Reasoning (TIR)などの高度な数学的推論能力を持っている。
GSM8K, MATH, GaoKao, AMC23, AIME24 など,英語と中国語の数学データセットを10種類評価し,小学校レベルの問題から数学の競争問題まで幅広い課題について考察した。
関連論文リスト
- MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate [41.58282051139543]
Supervised Fine-Tuning (SFT) は、与えられた命令に対する注釈付き応答を模倣するために言語モデルを訓練するために一般的に使用される。
批判的思考を強調する人間の学習プロセスに触発されて、批判的微調整(CFT)を提案する。
CFTは、しばしば標準的なSFTによって見落とされがちな、深い分析とニュアンスド理解のトラストを奨励する。
論文 参考訳(メタデータ) (2025-01-29T15:20:30Z) - URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics [25.308196207219613]
CoT推論は大規模言語モデル(LLM)の数学的推論能力を高めるために広く用いられている。
本研究では,マルチモーダルな数学的推論にシステム2スタイルの思考を導入する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:49:41Z) - Qwen2.5 Technical Report [122.13958993185952]
Qwen2.5は多種多様なニーズに対応するように設計された大規模言語モデル(LLM)の包括的シリーズである。
以前のイテレーションと比較して、Qwen 2.5はトレーニング前とトレーニング後の両方で大幅に改善されている。
オープンウェイト製品には、ベースモデルと命令チューニングモデルが含まれており、量子化されたバージョンが利用可能である。
ホスト型ソリューションでは、現在プロプライエタリなモデルには、Qwen2.5-TurboとQwen2.5-Plusの2つの混合型(MoE)が含まれている。
論文 参考訳(メタデータ) (2024-12-19T17:56:09Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [130.37945867605302]
本稿では,大規模言語モデル(LLM)の数学的CoT推論能力を向上させるWizardMathを提案する。
注目すべきは、WizardMath-Mistral 7BがトップクラスのオープンソースLLMをはるかに上回り、データ効率が向上したことだ。
予備的な調査では、卓越した数学性能を達成する上で、命令の進化とプロセスの監督が重要な役割を担っていることを強調した。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。