論文の概要: Beyond Uniform Credit Assignment: Selective Eligibility Traces for RLVR
- arxiv url: http://arxiv.org/abs/2605.05965v1
- Date: Thu, 07 May 2026 10:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.689755
- Title: Beyond Uniform Credit Assignment: Selective Eligibility Traces for RLVR
- Title(参考訳): 統一クレジットアサインメントを超えて: RLVRのための選択的適性トレース
- Authors: Chaoli Mou, Zhan Zhuang, Xinning Chen, Yu Zhang,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上のための重要なアプローチとなっている。
本研究では,S-Trace(S-Trace)を,サンプル効率,評価自由度トレース手法として提案する。
実験の結果、SトラスはGRPOを上回るだけでなく、Qwen3-1.7Bでは0.49%、Qwen3-4Bでは3.16%、Qwen3-8Bでは2.98%向上した。
- 参考スコア(独自算出の注目度): 7.971447120817466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a key approach for improving the reasoning abilities of large language models. However, widely used critic-free algorithms such as Group Relative Policy Optimization (GRPO) necessitate a ``uniform credit assignment'' assumption that indiscriminately broadcast trajectory-level advantages, hindering learning efficiency by failing to distinguish critical reasoning steps. To address this limitation, we propose Selective Eligibility Traces (S-trace). Grounded in the intuition of partial trust region preservation, we initially introduce P-trace as a sample-efficient, critic-free eligibility traces method, upon which we build S-trace, implementing a sparse eligibility traces mechanism to further mitigate variance and achieve fine-grained credit assignment by selectively masking low-entropy tokens. Theoretically, we contextualize the recent Group Sequence Policy Optimization (GSPO) method within the critic-free eligibility traces framework, identifying it as a special instance of the eligibility traces method operating under uniform credit assignment. Experiments demonstrate that S-trace not only outperforms GRPO, showing gains of 0.49\% on Qwen3-1.7B and 3.16\% on Qwen3-4B, and maintaining a robust 2.98\% improvement when scaled further to Qwen3-8B in average pass@16, but notably achieves this with simultaneously higher sample and token efficiency.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上のための重要なアプローチとなっている。
しかし、GRPO (Group Relative Policy Optimization) のような批判のないアルゴリズムは、無差別に軌道レベルの利点をブロードキャストする '`uniform Credit assignment'' という仮定を必要とする。
この制限に対処するため,S-Trace (Selective Eligibility Traces) を提案する。
低エントロピートークンを選択的にマスキングすることで、より分散を緩和し、きめ細かなクレジット割り当てを実現するため、Sトレースを作成したPトラスをサンプル効率・無批判の可視性トレース手法として導入する。
理論的には、最近のグループシーケンスポリシー最適化(GSPO)手法を批判自由度トレースフレームワーク内で文脈的に定義し、一様信用代入の下で動作している適性トレース手法の特別な例として特定する。
実験により、SトレースはGRPOに勝るだけでなく、Qwen3-1.7Bで0.49\%、Qwen3-4Bで3.16\%、Qwen3-8BでQwen3-8Bで平均パス@16でさらにスケールした場合のロバスト2.98\%の改善を示すが、特に高いサンプルとトークン効率でこれを同時に達成している。
関連論文リスト
- Stabilizing Efficient Reasoning with Step-Level Advantage Selection [54.563811052329235]
我々は,長さを意識しない標準のGRPOを用いて,短文のポストトレーニング単独で,すでにかなりの推理圧縮を誘導していることを示す。
そこで本稿では, 適切なロールアウトにおける低信頼度ステップと, 検証済みロールアウトにおける高信頼度ステップにゼロアドバンテージを割り当てるステップレベルアドバンテージ選択(SAS)を提案する。
論文 参考訳(メタデータ) (2026-04-27T03:34:59Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。