論文の概要: $\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving
- arxiv url: http://arxiv.org/abs/2603.07197v1
- Date: Sat, 07 Mar 2026 13:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.006409
- Title: $\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving
- Title(参考訳): $\textbf{Re}^{2}$: 再解決による強化学習によるLLM推論のアンロック
- Authors: Pinzheng Wang, Shuli Xu, Juntao Li, Yu Luo, Dong Li, Jianye Hao, Min Zhang,
- Abstract要約: 検証可能な報奨(RLVR)による強化学習は、大規模言語モデル(LLM)の推論性能を高めることを約束している。
チェーン・オブ・シークレット(CoT)の初期方向や品質が最適以下である場合、モデルが正しい答えに到達できないことがよく示される。
再解決による強化学習 (Reinforcement Learning with Re-solving, Re$2$) を導入し, LLM が非生産的推論経路を柔軟に放棄し,必要ならば解法を再開することを学ぶ。
- 参考スコア(独自算出の注目度): 75.29519604607111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning performance of large language models (LLMs) by increasing test-time compute. However, even after extensive RLVR training, such models still tend to generate unnecessary and low-quality steps in their chain-of-thought (CoT), leading to inefficient overthinking and lower answer quality. We show that when the initial direction or quality of the CoT is suboptimal, the model often fails to reach the correct answer, even after generating several times more tokens than when the initial CoT is well-initialized. To this end, we introduce Reinforcement Learning with Re-solving (Re$^2$), in which LLMs learn to flexibly abandon unproductive reasoning paths and restart the solution process when necessary, rather than always committing to a final answer. Re$^2$ applies pure reinforcement learning without any preliminary supervised fine-tuning, successfully amplifying the rare redo behavior in vanilla models from only 0.5% to over 30%. This leads to substantial performance gains over standard RLVR under the same training compute budget, and also demonstrates notable improvements in test-time performance as the number of samples increases.
- Abstract(参考訳): 検証可能な報奨(RLVR)による強化学習は,テスト時間計算の増加による大規模言語モデル(LLM)の推論性能の向上を約束している。
しかしながら、広範囲にわたるRLVRトレーニングの後でも、このようなモデルはいまだに不必要で低品質なステップをCoT(英語版)で生み出す傾向にあり、非効率な過剰思考と回答品質の低下につながる。
我々は,CoTの初期方向や品質が最適でない場合には,初期CoTが十分に初期化されている場合に比べて,数倍のトークンを生成した後でも,モデルが正しい解に到達できない場合が多いことを示した。
この目的のために,再解決を伴う強化学習 (Reinforcement Learning with Re-solving, Re$^2$) を導入する。
Re$^2$は、予備的な教師付き微調整なしに純粋な強化学習を適用し、バニラモデルのレアレド挙動をわずか0.5%から30%以上にまで増幅することに成功した。
これにより、同じトレーニング計算予算下での標準RLVRよりも大幅にパフォーマンスが向上し、サンプル数の増加とともにテスト時間のパフォーマンスが顕著に向上した。
関連論文リスト
- Replay Failures as Successes: Sample-Efficient Reinforcement Learning for Instruction Following [42.05102776289243]
強化学習(RL)は、様々な制約で命令に従うために、LLM(Large Language Models)を調整することを約束している。
タスク追従のための新しいサンプル効率のRLフレームワークであるHindsight instruction Replay (HiR)を提案する。
論文 参考訳(メタデータ) (2025-12-29T13:31:08Z) - Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning [49.22815446849924]
大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。
問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-10-29T22:05:08Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts [25.205293698698867]
我々はNested-ReFTを導入し、ターゲットモデルのサブセットがトレーニング中に非政治的な完了を生成する行動モデルとして機能する。
我々の理論的分析は、Nested-ReFTが制御された分散を伴う非バイアス勾配推定値を得ることを示している。
我々の経験的分析は、複数の数学推論ベンチマークとモデルサイズでトークン/秒として測定された計算効率の改善を実証している。
論文 参考訳(メタデータ) (2025-08-13T18:37:46Z) - Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。