論文の概要: ScRPO: From Errors to Insights
- arxiv url: http://arxiv.org/abs/2511.06065v2
- Date: Wed, 12 Nov 2025 01:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 16:10:52.860539
- Title: ScRPO: From Errors to Insights
- Title(参考訳): ScRPO: エラーからインサイトへ
- Authors: Lianrui Li, Dakuan Lu, Jiawei Shao, Chi Zhang, Xuelong Li,
- Abstract要約: 問題のある数学的問題に対して,大規模言語モデルを強化するための自己補正相対ポリシー最適化(ScRPO)を提案する。
本手法は,試行錯誤学習段階と自己訂正学習段階の2段階からなる。
AIME、AMC、Olympiad、MATH-500、GSM8k、Deepseek-Distill-Qwen-1.5B、Deepseek-Distill-Qwen-7Bなど、複数の数学推論ベンチマークの広範な実験が行われた。
- 参考スコア(独自算出の注目度): 47.828888776503675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Self-correction Relative Policy Optimization (ScRPO), a novel reinforcement learning framework designed to enhance large language models on challenging mathematical problems by leveraging self-reflection and error correction. Our approach consists of two stages: (1) Trial-and-error learning stage: training the model with GRPO and collecting incorrect answers along with their corresponding questions in an error pool; (2) Self-correction learning stage: guiding the model to reflect on why its previous answers were wrong. Extensive experiments across multiple math reasoning benchmarks, including AIME, AMC, Olympiad, MATH-500, GSM8k, using Deepseek-Distill-Qwen-1.5B and Deepseek-Distill-Qwen-7B. The experimental results demonstrate that ScRPO consistently outperforms several post-training methods. These findings highlight ScRPO as a promising paradigm for enabling language models to self-improve on difficult tasks with limited external feedback, paving the way toward more reliable and capable AI systems.
- Abstract(参考訳): 本研究では,自己回帰と誤り訂正を活用することで,問題のある数学的問題に対する大規模言語モデルの拡張を目的とした,新たな強化学習フレームワークである自己補正相対ポリシー最適化(ScRPO)を提案する。
提案手法は,(1)試行錯誤学習段階:GRPOを用いたモデルトレーニング,(2)自己訂正学習段階:モデルがなぜ誤りであったのかを反映させる。
AIME、AMC、Olympiad、MATH-500、GSM8k、Deepseek-Distill-Qwen-1.5B、Deepseek-Distill-Qwen-7Bなど、複数の数学推論ベンチマークの広範な実験が行われた。
実験結果から,SRPOはポストトレーニング法よりも優れた性能を示した。
これらの発見は、言語モデルが外部からのフィードバックを限定して困難なタスクを自己改善できるようにし、より信頼性が高く有能なAIシステムへの道を歩むための、有望なパラダイムとして、SCRPOを強調している。
関連論文リスト
- Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models [0.3831554157916835]
グループ相対政策最適化(GRPO)はR1のような推論モデルで広く採用されている。
GRPO-LEAD は,(1) 精度を維持しながら簡潔さを向上するための長規則化報酬,(2) モデル精度を向上させるための不正解に対する明確な罰則,(3) 難解な問題に対する堅牢な一般化のための困難に配慮した有利な再重み付けを提案する。
提案手法は,14Bスケールモデルに対する最先端性能を実現し,適切なモデルスケールと高品質なデータを用いた手法の相乗効果を実証する。
論文 参考訳(メタデータ) (2025-04-13T19:07:45Z) - Iterative Deepening Sampling as Efficient Test-Time Scaling [27.807695570974644]
OpenAIのO1シリーズのような最近の推論モデルは、複雑な推論タスクにおいて例外的なパフォーマンスを示している。
本稿では,自己補正の強化と高品質なサンプル生成を目的とした,新しい反復型深層サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。