Fugu-MT 論文翻訳(概要): Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

論文の概要: Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

arxiv url: http://arxiv.org/abs/2409.12122v1
Date: Wed, 18 Sep 2024 16:45:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 16:45:43.707073
Title: Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement
Title（参考訳）: Qwen2.5-Math Technical Report: toward Mathematical Expert Model via Self-Improvement
Authors: An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang,
Abstract要約: Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。 Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
参考スコア（独自算出の注目度）: 71.46993852662021
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this report, we present a series of math-specific large language models: Qwen2.5-Math and Qwen2.5-Math-Instruct-1.5B/7B/72B. The core innovation of the Qwen2.5 series lies in integrating the philosophy of self-improvement throughout the entire pipeline, from pre-training and post-training to inference: (1) During the pre-training phase, Qwen2-Math-Instruct is utilized to generate large-scale, high-quality mathematical data. (2) In the post-training phase, we develop a reward model (RM) by conducting massive sampling from Qwen2-Math-Instruct. This RM is then applied to the iterative evolution of data in supervised fine-tuning (SFT). With a stronger SFT model, it's possible to iteratively train and update the RM, which in turn guides the next round of SFT data iteration. On the final SFT model, we employ the ultimate RM for reinforcement learning, resulting in the Qwen2.5-Math-Instruct. (3) Furthermore, during the inference stage, the RM is used to guide sampling, optimizing the model's performance. Qwen2.5-Math-Instruct supports both Chinese and English, and possess advanced mathematical reasoning capabilities, including Chain-of-Thought (CoT) and Tool-Integrated Reasoning (TIR). We evaluate our models on 10 mathematics datasets in both English and Chinese, such as GSM8K, MATH, GaoKao, AMC23, and AIME24, covering a range of difficulties from grade school level to math competition problems.
Abstract（参考訳）: 本稿では,Qwen2.5-MathとQwen2.5-Math-Instruct-1.5B/7B/72Bという,数学固有の大規模言語モデルについて述べる。 Qwen2.5シリーズの中核的な革新は、事前学習やポストトレーニングから推論まで、パイプライン全体を通して自己改善の哲学を統合することである。 2) 訓練後の段階では,Qwen2-Math-Instructから大量サンプリングを行うことで報奨モデル(RM)を開発する。このRMは、教師付き微調整(SFT)におけるデータの反復的進化に適用される。より強力なSFTモデルでは、RMを反復的にトレーニングし、更新することが可能です。最終SFTモデルでは、最終的なRMを用いて強化学習を行い、Qwen2.5-Math-Instructとなる。 (3) 推論段階では, RMを用いてサンプリングを誘導し, モデルの性能を最適化する。 Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、Chain-of-Thought (CoT)やTool-Integrated Reasoning (TIR)などの高度な数学的推論能力を持っている。 GSM8K, MATH, GaoKao, AMC23, AIME24 など,英語と中国語の数学データセットを10種類評価し,小学校レベルの問題から数学の競争問題まで幅広い課題について考察した。

関連論文リスト

MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文参考訳（メタデータ） (2025-02-17T11:22:24Z)
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate [41.58282051139543]
Supervised Fine-Tuning (SFT) は、与えられた命令に対する注釈付き応答を模倣するために言語モデルを訓練するために一般的に使用される。本稿では,SFT よりも効果的な推論手法である Critique Fine-Tuning (CFT) を提案する。
論文参考訳（メタデータ） (2025-01-29T15:20:30Z)
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics [25.308196207219613]
CoT推論は大規模言語モデル(LLM)の数学的推論能力を高めるために広く用いられている。本研究では,マルチモーダルな数学的推論にシステム2スタイルの思考を導入する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-08T18:49:41Z)
Qwen2.5 Technical Report [122.13958993185952]
Qwen2.5は多種多様なニーズに対応するように設計された大規模言語モデル(LLM)の包括的シリーズである。以前のイテレーションと比較して、Qwen 2.5はトレーニング前とトレーニング後の両方で大幅に改善されている。オープンウェイト製品には、ベースモデルと命令チューニングモデルが含まれており、量子化されたバージョンが利用可能である。ホスト型ソリューションでは、現在プロプライエタリなモデルには、Qwen2.5-TurboとQwen2.5-Plusの2つの混合型(MoE)が含まれている。
論文参考訳（メタデータ） (2024-12-19T17:56:09Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。 MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文参考訳（メタデータ） (2024-08-07T02:14:52Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。 5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文参考訳（メタデータ） (2024-02-14T05:57:58Z)
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文参考訳（メタデータ） (2024-02-09T11:22:08Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。 GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文参考訳（メタデータ） (2023-08-18T14:23:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。