論文の概要: A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.08267v1
- Date: Fri, 11 Jul 2025 02:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.225505
- Title: A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning
- Title(参考訳): 数学的LLMのための実用的2段階レシピ:SFTによる精度の最大化と強化学習による効率
- Authors: Hiroshi Yoshihara, Taiki Yamaguchi, Yuichi Inoue,
- Abstract要約: 監督された微調整と強化学習が主要な訓練パラダイムである。
本稿では,オンライン推論から拡張SFTとRLを戦略的に統合する実践的で効果的なトレーニングレシピを提案する。
実験の結果,SFTを最大10時間拡張することは,パフォーマンスのブレークスルーに不可欠であることが判明した。
この研究は、コミュニティに最先端の数学的推論器を開発するための、テスト済みの青写真を提供する。
- 参考スコア(独自算出の注目度): 0.40964539027092906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing the mathematical reasoning of Large Language Models (LLMs) is a pivotal challenge in advancing AI capabilities. While Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) are the dominant training paradigms, a systematic methodology for combining them to maximize both accuracy and efficiency remains largely unexplored. This paper introduces a practical and effective training recipe that strategically integrates extended SFT with RL from online inference (GRPO). We posit that these methods play complementary, not competing, roles: a prolonged SFT phase first pushes the model's accuracy to its limits, after which a GRPO phase dramatically improves token efficiency while preserving this peak performance. Our experiments reveal that extending SFT for as many as 10 epochs is crucial for performance breakthroughs, and that the primary role of GRPO in this framework is to optimize solution length. The efficacy of our recipe is rigorously validated through top-tier performance on challenging benchmarks, including a high rank among over 2,200 teams in the strictly leak-free AI Mathematical Olympiad (AIMO). This work provides the community with a battle-tested blueprint for developing state-of-the-art mathematical reasoners that are both exceptionally accurate and practically efficient. To ensure full reproducibility and empower future research, we will open-source our entire framework, including all code, model checkpoints, and training configurations at https://github.com/analokmaus/kaggle-aimo2-fast-math-r1.
- Abstract(参考訳): 大規模言語モデル(LLM)の数学的推論の強化は、AI能力向上における重要な課題である。
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) が主流のトレーニングパラダイムであるが、それらを組み合わせて精度と効率を最大化するための体系的な方法論は、まだ明らかにされていない。
本稿では,オンライン推論(GRPO)から拡張SFTとRLを戦略的に統合する実践的で効果的なトレーニングレシピを提案する。
長めのSFTフェーズはまずモデルの精度を限界まで押し上げ、その後GRPOフェーズはピーク性能を維持しながらトークン効率を劇的に改善する。
実験の結果,SFTを最大10エポックまで拡張することは,パフォーマンスのブレークスルーに不可欠であり,GRPOの本フレームワークにおける主な役割は,ソリューション長の最適化であることがわかった。
AIMO(AI Mathematical Olympiad)では,2200以上のチームの中で高い評価を受けている。
この研究により、コミュニティは、非常に正確かつ実用的な、最先端の数学的推論器を開発するための、テスト済みの青写真を提供する。
すべてのコード、モデルチェックポイント、トレーニング設定をhttps://github.com/analokmaus/kaggle-aimo2-fast-math-r1で公開します。
関連論文リスト
- Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Fault Tolerant ML: Efficient Meta-Aggregation and Synchronous Training [8.419845742978985]
分散機械学習(ML)システムにおけるビザンチン・ロバスト学習の挑戦的枠組みについて検討する。
最初のコントリビューションは,ベースラインアグリゲータを最適なパフォーマンスレベルにアップグレードする,効率的なメタアグリゲータの導入です。
本稿では,ビザンチン・ロバスト訓練の理論的および実践的優位性,特にチューニングプロセスの簡略化について述べる。
論文 参考訳(メタデータ) (2024-05-23T16:29:30Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - FedMS: Federated Learning with Mixture of Sparsely Activated Foundations
Models [11.362085734837217]
我々はFedMSと呼ばれる新しい2段階のフェデレーション学習アルゴリズムを提案する。
グローバルエキスパートは第一段階で訓練され、ローカルエキスパートは第二段階で訓練され、より良いパーソナライズを提供する。
我々はFedMSの有効性を検証するために広範囲な実験を行い、その結果、FedMSは他のSOTAベースラインを55.25%まで上回る結果となった。
論文 参考訳(メタデータ) (2023-12-26T07:40:26Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。