論文の概要: Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2605.14539v1
- Date: Thu, 14 May 2026 08:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.710794
- Title: Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards
- Title(参考訳): 失敗から学ぶ:検証可能なリワードによる補正指向のポリシー最適化
- Authors: Mengjie Ren, Jie Lou, Boxi Cao, Xueru Wen, Hongyu Lin, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
- 参考スコア(独自算出の注目度): 73.44333771806282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective paradigm for improving the reasoning capabilities of large language models. However, RLVR training is often hindered by sparse binary rewards and weak credit assignment, resulting in ambiguous optimization signals and underutilization of the useful information embedded in failed trajectories. To address this challenge, we propose Correction-Oriented Policy Optimization (CIPO), a simple and effective extension to RLVR that converts on-policy failed trajectories into correction-oriented supervision, without relying on any external signals. By jointly optimizing correction samples derived from the model's own failed attempts together with the standard RLVR objective, CIPO improves learning effectiveness while explicitly enhancing the model's ability to correct its own errors. Extensive experiments across 11 benchmarks spanning mathematical reasoning and code generation demonstrate that CIPO consistently and significantly outperforms strong baselines in both reasoning and correction performance. Moreover, CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
しかし、RLVRトレーニングは、少ない二進法報酬と弱い信用割当によって妨げられ、不明瞭な最適化信号と、失敗した軌跡に埋め込まれた有用な情報の未活用をもたらす。
この課題に対処するため、我々は、RLVRの簡易かつ効果的な拡張であるCIPOを提案し、外部信号に頼らずに、オンラインの障害トラジェクトリを修正指向の監視に変換する。
モデル自体の失敗から得られた補正サンプルを標準のRLVR目標と共同で最適化することにより、CIPOは学習効率を向上させるとともに、モデル自体のエラーを修正する能力を明示的に向上する。
数学的推論とコード生成にまたがる11のベンチマークにわたる大規模な実験は、CIPOが推論と修正の両方のパフォーマンスにおいて、一貫性と大幅に向上していることを示している。
さらに、CIPOはより強力なpass@Kゲインを獲得し、既存の正解に対して確率質量を再分配するのではなく、モデルの本質的な推論能力を改善することを示している。
関連論文リスト
- CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR [10.821950260274066]
RLVRによる強化学習は大規模言語モデル(LLM)の推論能力を大幅に向上させた。
プロセスに反するが結果の正しいロールアウトのトレーニングは、幻覚と回答コピーにつながる可能性がある。
RLVRプロセスの一般化のために,コントラスト学習機構を政策最適化(CLIPO)に組み込んだ。
論文 参考訳(メタデータ) (2026-03-10T17:59:54Z) - Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards [71.19033708090389]
Reinforcement Learning from Verifiable Rewards (RLVR) は、大きな言語モデル(LLM)推論を著しく強化するが、校正劣化に苦しむ。
推論と校正の目的を体系的に分離するフレームワークであるDCPOを提案する。
論文 参考訳(メタデータ) (2026-03-10T02:47:59Z) - Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。
既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。
本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:40:06Z) - Learning Self-Correction in Vision-Language Models via Rollout Augmentation [25.49118301476432]
視覚言語モデル(VLM)における推論問題の解決には自己補正が不可欠である
既存の強化学習法(RL)は、効果的な自己補正行動が稀に現れるため、学習に苦慮している。
本稿では,高密度自己補正例を合成するRLロールアウト拡張フレームワークOctopusを提案する。
我々は,制御可能な自己補正機能を備えた推論型VLMであるOctopus-8Bを紹介する。
論文 参考訳(メタデータ) (2026-02-09T10:55:13Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。