論文の概要: R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification
- arxiv url: http://arxiv.org/abs/2601.03715v1
- Date: Wed, 07 Jan 2026 09:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.168663
- Title: R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification
- Title(参考訳): R$3$L:Language-Guided Exploration, Pivotal Credit, Positive Amplificationによるリフレクション-then-Retry強化学習
- Authors: Weijie Shi, Yanxi Chen, Zexi Li, Xuchen Pan, Yuchang Sun, Jiajie Xu, Xiaofang Zhou, Yaliang Li,
- Abstract要約: 強化学習は推論とエージェント能力の最近の進歩を促進するが、現在のアプローチは探索と搾取の両方で苦労している。
本稿では,R$3$L,Reflection-then-Retry Reinforcement Learning with Language-Guided Exploration,Pivotal Credit,Positive Amplificationを提案する。
エージェントおよび推論タスクの実験は、トレーニング安定性を維持しながら、ベースラインよりも5%から52%改善したことを示している。
- 参考スコア(独自算出の注目度): 44.99719889905381
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning drives recent advances in LLM reasoning and agentic capabilities, yet current approaches struggle with both exploration and exploitation. Exploration suffers from low success rates on difficult tasks and high costs of repeated rollouts from scratch. Exploitation suffers from coarse credit assignment and training instability: Trajectory-level rewards penalize valid prefixes for later errors, and failure-dominated groups overwhelm the few positive signals, leaving optimization without constructive direction. To this end, we propose R$^3$L, Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification. To synthesize high-quality trajectories, R$^3$L shifts from stochastic sampling to active synthesis via reflect-then-retry, leveraging language feedback to diagnose errors, transform failed attempts into successful ones, and reduce rollout costs by restarting from identified failure points. With errors diagnosed and localized, Pivotal Credit Assignment updates only the diverging suffix where contrastive signals exist, excluding the shared prefix from gradient update. Since failures dominate on difficult tasks and reflect-then-retry produces off-policy data, risking training instability, Positive Amplification upweights successful trajectories to ensure positive signals guide the optimization process. Experiments on agentic and reasoning tasks demonstrate 5\% to 52\% relative improvements over baselines while maintaining training stability. Our code is released at https://github.com/shiweijiezero/R3L.
- Abstract(参考訳): 強化学習はLLM推論とエージェント能力の最近の進歩を促進するが、現在のアプローチは探索と搾取の両方に苦慮している。
探索は、困難なタスクに対する成功率の低下と、繰り返しロールアウトする際のコストの低下に悩まされる。
軌道レベルの報酬は、後のエラーに対する有効な接頭辞を罰し、失敗に支配されたグループは、建設的な指示なしに最適化を残さずに、少数のポジティブなシグナルを圧倒する。
この目的のために、R$^3$L, Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, Positive Amplificationを提案する。
高品質な軌道を合成するために、R$^3$Lは確率的なサンプリングからリフレクション-then-retryによるアクティブな合成へとシフトし、言語フィードバックを利用してエラーを診断し、失敗した試みを成功したものに変換し、特定された障害点から再起動することでロールアウトコストを削減する。
エラーの診断とローカライズにより、Pivotal Credit Assignmentは、勾配更新からの共有プレフィックスを除いて、コントラスト信号が存在する分岐サフィックスのみを更新する。
障害は困難なタスクに支配され、リフレクション・ザ・リトライはオフ・ポリティデータを生成するため、トレーニング不安定のリスクを負うため、正の増幅は最適化プロセスを導くために軌道を成功させる。
エージェント的および推論的タスクの実験では、トレーニング安定性を維持しながら、ベースラインよりも5倍から52倍の相対的な改善が示されている。
私たちのコードはhttps://github.com/shiweijiezero/R3Lで公開されています。
関連論文リスト
- CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - $\mathbf{T^3}$: Reducing Belief Deviation in Reinforcement Learning for Active Reasoning [25.588308192160685]
本稿では,モデル信念の逸脱を追跡し,過剰な信念の逸脱を検出し,不定形尾を除去するために軌道を乱す単純な方法であるmathbfT3$を開発することを提案する。
$mathbfT3$は、トレーニングの安定性、トークン効率、最終的なパフォーマンスを継続的に向上し、ロールアウトトークンを約25%カットしながら最大30%のゲインを達成する。
論文 参考訳(メタデータ) (2025-10-14T08:14:49Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts [25.205293698698867]
我々はNested-ReFTを導入し、ターゲットモデルのサブセットがトレーニング中に非政治的な完了を生成する行動モデルとして機能する。
我々の理論的分析は、Nested-ReFTが制御された分散を伴う非バイアス勾配推定値を得ることを示している。
我々の経験的分析は、複数の数学推論ベンチマークとモデルサイズでトークン/秒として測定された計算効率の改善を実証している。
論文 参考訳(メタデータ) (2025-08-13T18:37:46Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。
実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。
この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:27:54Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning [54.585428241509234]
逆カリキュラム強化学習(RL)によるR$3の学習推論を提案する。
RLは、大規模言語モデルのプロセス監視の利点を達成するために、結果監視のみを採用する。
論文 参考訳(メタデータ) (2024-02-08T16:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。