論文の概要: Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning
- arxiv url: http://arxiv.org/abs/2506.18330v1
- Date: Mon, 23 Jun 2025 06:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.882463
- Title: Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning
- Title(参考訳): Confucius3-Math:中国のK-12数学学習のための軽量高性能推論LLM
- Authors: Lixin Wu, Na Cai, Qiao Cheng, Jiachen Wang, Yitao Duan,
- Abstract要約: Confucius3-Mathは,1つのコンシューマグレードGPU上で効率的に動作する14Bパラメータを備えた,オープンソースの大規模言語モデルである。
このレポートでは、開発レシピ、直面する課題、それらを克服するために開発するテクニックを共有します。
- 参考スコア(独自算出の注目度): 4.597173901308145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Confucius3-Math, an open-source large language model with 14B parameters that (1) runs efficiently on a single consumer-grade GPU; (2) achieves SOTA performances on a range of mathematical reasoning tasks, outperforming many models with significantly larger sizes. In particular, as part of our mission to enhancing education and knowledge dissemination with AI, Confucius3-Math is specifically committed to mathematics learning for Chinese K-12 students and educators. Built via post-training with large-scale reinforcement learning (RL), Confucius3-Math aligns with national curriculum and excels at solving main-stream Chinese K-12 mathematical problems with low cost. In this report we share our development recipe, the challenges we encounter and the techniques we develop to overcome them. In particular, we introduce three technical innovations: Targeted Entropy Regularization, Recent Sample Recovery and Policy-Specific Hardness Weighting. These innovations encompass a new entropy regularization, a novel data scheduling policy, and an improved group-relative advantage estimator. Collectively, they significantly stabilize the RL training, improve data efficiency, and boost performance. Our work demonstrates the feasibility of building strong reasoning models in a particular domain at low cost. We open-source our model and code at https://github.com/netease-youdao/Confucius3-Math.
- Abstract(参考訳): Confucius3-Mathは,(1)1つのコンシューマグレードGPU上で効率よく動作する14Bパラメータを持つ,オープンソースの大規模言語モデルである。
特に、AIによる教育と知識の普及を促進するミッションの一環として、Confucius3-Mathは、中国のK-12の学生や教育者のための数学学習に特に力を入れています。
大規模な強化学習(RL)によるポストトレーニングを通じて構築されたConfucius3-Mathは、全国的なカリキュラムと整合し、メインストリームの中国のK-12数学問題を低コストで解くのに長けている。
このレポートでは、開発レシピ、直面する課題、それらを克服するために開発するテクニックを共有します。
特に,ターゲットエントロピー規則化,最近のサンプル回収,政策特異的硬度重み付けの3つの技術革新を紹介した。
これらの革新には、新しいエントロピー正規化、新しいデータスケジューリングポリシー、改善されたグループ相対的優位性推定器が含まれる。
総合的には、RLトレーニングを著しく安定化し、データ効率を向上し、パフォーマンスを向上する。
私たちの研究は、特定のドメインに強力な推論モデルを低コストで構築できる可能性を示している。
当社のモデルとコードはhttps://github.com/netease-youdao/Confucius3-Math.comで公開しています。
関連論文リスト
- MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion [48.443460251524776]
MathFusionはクロスプロブレム命令合成による数学的推論を強化する新しいフレームワークである。
MathFusionは、高いデータ効率を維持しながら、数学的推論を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-20T15:00:41Z) - LeanAgent: Lifelong Learning for Formal Theorem Proving [85.39415834798385]
フォーマルな定理証明のための新しい生涯学習フレームワークであるLeanAgentを紹介する。
LeanAgentは継続的に一般化し、拡張可能な数学的知識を改善します。
これは23のリーンリポジトリにわたる155の定理の正式な証明を生成する。
論文 参考訳(メタデータ) (2024-10-08T17:11:24Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MathLearner: A Large Language Model Agent Framework for Learning to Solve Mathematical Problems [0.936726079405677]
本稿では,帰納的推論に基づく数学的問題を解くためのエージェントフレームワークを提案する。
学習情報の一般化に関する人間の学習過程をエミュレートすることにより、この枠組みは数学的推論プロセスにおいて優れた性能を発揮する。
我々のモデルは個人化された学習支援として利用でき、教育資源の不平等を軽減できる。
論文 参考訳(メタデータ) (2024-08-03T13:28:19Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。
我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。
提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [130.37945867605302]
本稿では,大規模言語モデル(LLM)の数学的CoT推論能力を向上させるWizardMathを提案する。
注目すべきは、WizardMath-Mistral 7BがトップクラスのオープンソースLLMをはるかに上回り、データ効率が向上したことだ。
予備的な調査では、卓越した数学性能を達成する上で、命令の進化とプロセスの監督が重要な役割を担っていることを強調した。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。