論文の概要: Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning
- arxiv url: http://arxiv.org/abs/2506.18330v2
- Date: Wed, 25 Jun 2025 10:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 12:28:29.366191
- Title: Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning
- Title(参考訳): Confucius3-Math:中国のK-12数学学習のための軽量高性能推論LLM
- Authors: Lixin Wu, Na Cai, Qiao Cheng, Jiachen Wang, Yitao Duan,
- Abstract要約: Confucius3-Mathは,1つのコンシューマグレードGPU上で効率的に動作する14Bパラメータを備えた,オープンソースの大規模言語モデルである。
このレポートでは、開発レシピ、直面する課題、それらを克服するために開発するテクニックを共有します。
- 参考スコア(独自算出の注目度): 4.597173901308145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Confucius3-Math, an open-source large language model with 14B parameters that (1) runs efficiently on a single consumer-grade GPU; (2) achieves SOTA performances on a range of mathematical reasoning tasks, outperforming many models with significantly larger sizes. In particular, as part of our mission to enhancing education and knowledge dissemination with AI, Confucius3-Math is specifically committed to mathematics learning for Chinese K-12 students and educators. Built via post-training with large-scale reinforcement learning (RL), Confucius3-Math aligns with national curriculum and excels at solving main-stream Chinese K-12 mathematical problems with low cost. In this report we share our development recipe, the challenges we encounter and the techniques we develop to overcome them. In particular, we introduce three technical innovations: Targeted Entropy Regularization, Recent Sample Recovery and Policy-Specific Hardness Weighting. These innovations encompass a new entropy regularization, a novel data scheduling policy, and an improved group-relative advantage estimator. Collectively, they significantly stabilize the RL training, improve data efficiency, and boost performance. Our work demonstrates the feasibility of building strong reasoning models in a particular domain at low cost. We open-source our model and code at https://github.com/netease-youdao/Confucius3-Math.
- Abstract(参考訳): Confucius3-Mathは,(1)1つのコンシューマグレードGPU上で効率よく動作する14Bパラメータを持つ,オープンソースの大規模言語モデルである。
特に、AIによる教育と知識の普及を促進するミッションの一環として、Confucius3-Mathは、中国のK-12の学生や教育者のための数学学習に特に力を入れています。
大規模な強化学習(RL)によるポストトレーニングを通じて構築されたConfucius3-Mathは、全国的なカリキュラムと整合し、メインストリームの中国のK-12数学問題を低コストで解くのに長けている。
このレポートでは、開発レシピ、直面する課題、それらを克服するために開発するテクニックを共有します。
特に,ターゲットエントロピー規則化,最近のサンプル回収,政策特異的硬度重み付けの3つの技術革新を紹介した。
これらの革新には、新しいエントロピー正規化、新しいデータスケジューリングポリシー、改善されたグループ相対的優位性推定器が含まれる。
総合的には、RLトレーニングを著しく安定化し、データ効率を向上し、パフォーマンスを向上する。
私たちの研究は、特定のドメインに強力な推論モデルを低コストで構築できる可能性を示している。
当社のモデルとコードはhttps://github.com/netease-youdao/Confucius3-Math.comで公開しています。
関連論文リスト
- WarriorMath: Enhancing the Mathematical Ability of Large Language Models with a Defect-aware Framework [42.74246647841103]
WarriorMathは数学的問題解決のための欠陥認識フレームワークである。
我々は、複数の専門家のLLMを協調的なプロセスで採用し、問題を生成、批判、洗練させます。
トレーニング段階において、我々は、その弱点に合わせてますます困難なデータを用いてモデルを反復的に微調整する進歩的学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-08-02T07:45:12Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion [48.443460251524776]
MathFusionはクロスプロブレム命令合成による数学的推論を強化する新しいフレームワークである。
MathFusionは、高いデータ効率を維持しながら、数学的推論を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-20T15:00:41Z) - LeanAgent: Lifelong Learning for Formal Theorem Proving [85.39415834798385]
フォーマルな定理証明のための新しい生涯学習フレームワークであるLeanAgentを紹介する。
LeanAgentは継続的に一般化し、拡張可能な数学的知識を改善します。
これは23のリーンリポジトリにわたる155の定理の正式な証明を生成する。
論文 参考訳(メタデータ) (2024-10-08T17:11:24Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MathLearner: A Large Language Model Agent Framework for Learning to Solve Mathematical Problems [0.936726079405677]
本稿では,帰納的推論に基づく数学的問題を解くためのエージェントフレームワークを提案する。
学習情報の一般化に関する人間の学習過程をエミュレートすることにより、この枠組みは数学的推論プロセスにおいて優れた性能を発揮する。
我々のモデルは個人化された学習支援として利用でき、教育資源の不平等を軽減できる。
論文 参考訳(メタデータ) (2024-08-03T13:28:19Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。
我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。
提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [130.37945867605302]
本稿では,大規模言語モデル(LLM)の数学的CoT推論能力を向上させるWizardMathを提案する。
注目すべきは、WizardMath-Mistral 7BがトップクラスのオープンソースLLMをはるかに上回り、データ効率が向上したことだ。
予備的な調査では、卓越した数学性能を達成する上で、命令の進化とプロセスの監督が重要な役割を担っていることを強調した。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。