論文の概要: PCL-Reasoner-V1.5: Advancing Math Reasoning with Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.14716v1
- Date: Wed, 21 Jan 2026 07:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.272033
- Title: PCL-Reasoner-V1.5: Advancing Math Reasoning with Offline Reinforcement Learning
- Title(参考訳): PCL-Reasoner-V1.5:オフライン強化学習による数学的推論の促進
- Authors: Yao Lu, Dengdong Fan, Jianzheng Nie, Fan Xu, Jie Chen, Bin Zhou, Yonghong Tian,
- Abstract要約: 数学的推論のための大規模言語モデル(LLM)であるPCL-Reasoner-V1.5を提案する。
トレーニングの安定性と効率性を向上するオフラインRL方式が中心的なイノベーションである。
- 参考スコア(独自算出の注目度): 34.812247280981225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PCL-Reasoner-V1.5, a 32-billion-parameter large language model (LLM) for mathematical reasoning. The model is built upon Qwen2.5-32B and refined via supervised fine-tuning (SFT) followed by reinforcement learning (RL). A central innovation is our proposed offline RL method, which provides superior training stability and efficiency over standard online RL methods such as GRPO. Our model achieves state-of-the-art performance among models post-trained on Qwen2.5-32B, attaining average accuracies of 90.9% on AIME 2024 and 85.6% on AIME 2025. Our work demonstrates offline RL as a stable and efficient paradigm for advancing reasoning in LLMs. All experiments were conducted on Huawei Ascend 910C NPUs.
- Abstract(参考訳): 数学的推論のための32ビリオンパラメータ大言語モデル(LLM)であるPCL-Reasoner-V1.5を提案する。
モデルはQwen2.5-32B上に構築され、教師付き微調整(SFT)と強化学習(RL)によって改良されている。
GRPOのような標準オンラインRL手法よりも優れたトレーニング安定性と効率を提供するオフラインRL方式が中心的な革新である。
本モデルでは,Qwen2.5-32B で訓練後,平均 AIME 2024 で90.9%,AIME 2025 で85.6% の精度を実現した。
我々の研究は、LLMにおける推論を進めるための安定的で効率的なパラダイムとしてオフラインRLを実証している。
すべての実験はHuawei Ascend 910C NPUで行われた。
関連論文リスト
- Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文 参考訳(メタデータ) (2025-05-28T12:56:04Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。