論文の概要: Credit Assignment with Resets in Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2605.25507v2
- Date: Tue, 26 May 2026 17:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.098981
- Title: Credit Assignment with Resets in Language Model Reasoning
- Title(参考訳): 言語モデル推論におけるリセットによるクレジット割り当て
- Authors: Ankur Samanta, Akshayaa Magesh, Ayush Jain, Youliang Yu, Daniel Jiang, Kavosh Asadi, Kaveh Hassani, Paul Sajda, Jalaj Bhandari, Yonathan Efroni,
- Abstract要約: ポストトレイン言語モデルは、トラジェクトリ内のすべてのトークンに対して、単一の結果報酬を均一に割り当てる。
この制限は、軌道全体を均一に更新するのではなく、目標とする故障推論ステップの洗練を可能にすることで対処できる。
本稿では、ランダムリセットポリシー最適化(RRPO)と自己リセットポリシー最適化(SRPO)の2つの手法を提案する。
- 参考スコア(独自算出の注目度): 19.869062158993113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary reinforcement learning with verifiable reward methods post-train language models on multi-step reasoning by assigning a single outcome reward uniformly across all tokens in a trajectory. Such uniform assignment ignores which steps contributed to success or failure. Improving credit assignment can address this limitation by enabling targeted refinement of faulty reasoning steps, rather than updating entire trajectories uniformly. Resets are one such simple mechanism, enabling more precise credit assignment by returning to an intermediate state and resampling counterfactual continuations, so that outcome differences can be attributed to decisions made at that point. We propose two such methods: Random-Reset Policy Optimization (RRPO), where reset states are drawn randomly from reasoning steps, and Self-Reset Policy Optimization (SRPO), where the model self-localizes the erroneous step in an incorrect trajectory and resets there. We analyze these methods within the Conservative Policy Iteration (CPI) framework. Extending CPI with a credit-assignment oracle that targets improvable states yields provable improvements over random resets. Across models and reasoning benchmarks, SRPO consistently outperforms standard GRPO and RRPO by sampling multiple suffix continuations at a self-localized reset and learning from their rewards, using only the model itself with no external supervision.
- Abstract(参考訳): 軌道上の全てのトークンに対して1つの結果報酬を均一に割り当てることにより、多段階推論に基づく訓練後の言語モデルに対する検証可能な報酬法による現代的強化学習を行う。
このような均一な割り当ては、成功または失敗に寄与するステップを無視します。
信用割当の改善は、全軌道を均一に更新するのではなく、目標とする故障推論ステップの洗練を可能にすることで、この制限に対処することができる。
リセットはそのような単純なメカニズムの1つであり、中間状態に戻り、反ファクト的な継続をサンプリングすることで、より正確なクレジット割り当てを可能にします。
本稿では、ランダムリセットポリシー最適化(RRPO)と自己リセットポリシー最適化(SRPO)の2つの手法を提案する。
我々はこれらの手法を保守政策反復(CPI)フレームワークで分析する。
即効性のある状態をターゲットにしたクレジット割り当てオラクルによるCPIの拡張は、ランダムリセットよりも証明可能な改善をもたらす。
モデルと推論ベンチマーク全体を通じて、SRPOは標準GRPOとRRPOを一貫して上回り、自己局所リセットで複数の接尾辞の継続をサンプリングし、その報酬から学習し、モデル自体を外部の監督なしに使用する。
関連論文リスト
- One-Way Policy Optimization for Self-Evolving LLMs [63.8638342097375]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を拡張するための,有望なパラダイムとなっている。
本稿では,最適化方向を更新等級から切り離す手法である1-Way Policy Optimization (OWPO)を提案する。
実験の結果,OWPOはDAPO,OPD,MOPDなどの強いベースラインより優れていた。
論文 参考訳(メタデータ) (2026-05-21T08:25:27Z) - F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking [79.49893545611779]
大規模言語モデル(LLM)はサブセットを生成し、それを1つの自己回帰パス内で順序付けることができる。
この柔軟性は、新しい最適化課題をもたらす: モデルが出力空間を検索し、完全なランクリストが生成された後にのみユーティリティフィードバックを受けなければならない。
このクレジット割り当てギャップは、エンドツーエンドの最適化を不安定にし、サンプル非効率にする。
本稿では,単一自己回帰的ロールアウト内の両方を実行する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-13T04:52:33Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards [47.557539197058496]
逆推論のためのランダムポリシー評価(ROVER)について紹介する。
ROVERは、一様政体Q値上のソフトマックスから作用をサンプリングする最小限だが高効率なRL法である。
textbfquality(textbf+8.2 on pass@1, textbf+16.8 on pass@256)と textbfdiversity(textbf+17.6%)の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-09-29T16:09:07Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。
本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。
本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。