論文の概要: Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
- arxiv url: http://arxiv.org/abs/2509.02522v1
- Date: Tue, 02 Sep 2025 17:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.120475
- Title: Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
- Title(参考訳): RLVRのための教師付き学習フレームワークによる暗黙のアクター批判結合
- Authors: Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) の最近の進歩は、数学やプログラミングといった難解な推論課題に取り組むために、大規模言語モデル(LLM)に力を与えている。
約束にもかかわらず、RLVRパラダイムは大きな課題を生んでいる。
我々は,im$textbfP$licit $textbfA$ctor $textbfC$ritic couplingを実現する新しいRLVRフレームワークである$textbfPACS$を提案する。
- 参考スコア(独自算出の注目度): 25.56828724912418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have empowered large language models (LLMs) to tackle challenging reasoning tasks such as mathematics and programming. RLVR leverages verifiable outcome rewards to guide policy optimization, enabling LLMs to progressively improve output quality in a grounded and reliable manner. Despite its promise, the RLVR paradigm poses significant challenges, as existing methods often suffer from sparse reward signals and unstable policy gradient updates, particularly in RL-based approaches. To address the challenges, we propose $\textbf{PACS}$, a novel RLVR framework that achieves im$\textbf{P}$licit $\textbf{A}$ctor $\textbf{C}$ritic coupling via a $\textbf{S}$upervised learning framework. By treating the outcome reward as a predictable label, we reformulate the RLVR problem into a supervised learning task over a score function parameterized by the policy model and optimized using cross-entropy loss. A detailed gradient analysis shows that this supervised formulation inherently recovers the classical policy gradient update while implicitly coupling actor and critic roles, yielding more stable and efficient training. Benchmarking on challenging mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as PPO and GRPO, achieving superior reasoning performance. For instance, PACS achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32 and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a promising avenue for LLMs post-training with verifiable rewards. Our code and data are available as open source at https://github.com/ritzz-ai/PACS.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) の最近の進歩は、数学やプログラミングといった難解な推論課題に取り組むために、大規模言語モデル(LLM)に力を与えている。
RLVRは、検証可能な結果の報酬を利用してポリシー最適化をガイドし、LLMが基礎的で信頼性の高い方法で出力品質を段階的に改善することを可能にする。
RLVRパラダイムは、その約束にもかかわらず、既存の手法は、特にRLベースのアプローチにおいて、粗末な報酬信号と不安定なポリシー勾配更新に悩まされるため、大きな課題を生んでいる。
この課題に対処するために、$\textbf{PACS}$, im$\textbf{P}$licit $\textbf{A}$ctor $\textbf{C}$ritic coupling via a $\textbf{S}$upervised learning framework。
結果報酬を予測可能なラベルとして扱うことにより、ポリシモデルによってパラメータ化され、クロスエントロピー損失を用いて最適化されたスコア関数上で、RLVR問題を教師付き学習タスクに再構成する。
詳細な勾配解析により、この監督された定式化は古典的な方針勾配の更新を本質的に回復し、アクターと批評家の役割を暗黙的に結合させ、より安定的で効率的なトレーニングをもたらすことが示されている。
挑戦的な数学的推論タスクをベンチマークすると、PACSはPPOやGRPOといった強力なRLVRベースラインよりも優れ、推論性能が優れている。
例えば、PACSはAIME 2025でパス@256で59.78\%を獲得し、PPOとGRPOの13.32点と14.36点の改善を示している。
このシンプルで強力なフレームワークは、検証可能な報酬を伴う後トレーニングのための有望な道を提供する。
私たちのコードとデータは、https://github.com/ritzz-ai/PACS.comでオープンソースとして公開されています。
関連論文リスト
- Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [8.143110220871614]
我々は、構造化されたチェックリストスタイルのルーリックを解釈可能な報酬信号として利用するフレームワークであるRaRを紹介する。
ごみを構造化された報酬信号として扱うことにより、RaRはより小規模の審査モデルで人間の嗜好に適合できることを示す。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards [17.695285420477035]
オフポリシーRLと教師付き微調整の中間領域のアルゴリズムについて検討する。
まず、このオフポリティREINFORCEアルゴリズムの理論的解析を行う。
我々の分析によると、オンライン更新はポジティブな信号とネガティブな信号の両方を安全に活用できるが、オフライン更新は、ネガティブな信号よりもポジティブな報酬にフォーカスすることの恩恵を受ける。
論文 参考訳(メタデータ) (2025-06-25T15:07:16Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Learning to Reason under Off-Policy Guidance [40.27817638425237]
textbfLUFFY(textbfLearning to reason textbfUnder otextbfFF-polictextbfY guidance)を導入する。
LUFFYは、模擬と探検のバランスを取るために、オフ・ポリティクスのデモとオン・ポリティクスのロールアウトを組み合わせる。
論文 参考訳(メタデータ) (2025-04-21T08:09:13Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。