論文の概要: Stabilizing Long-term Multi-turn Reinforcement Learning with Gated Rewards
- arxiv url: http://arxiv.org/abs/2508.10548v1
- Date: Thu, 14 Aug 2025 11:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.287617
- Title: Stabilizing Long-term Multi-turn Reinforcement Learning with Gated Rewards
- Title(参考訳): ゲーテッド・リワードを用いた長期多ターン強化学習の安定化
- Authors: Zetian Sun, Dongfang Li, Zhuoen Chen, Yuhuai Qin, Baotian Hu,
- Abstract要約: 本稿では,マルチターンインタラクション,dockerベースの実行,カスタマイズ可能な報酬関数をサポートする統合システムであるSWE指向RLフレームワークを紹介する。
Gated Reward Accumulation (G-RA) も提案する。これは,高位(長期)の報酬が予め定義された閾値を満たす場合にのみ,即時報酬を蓄積する新しい手法である。
- 参考スコア(独自算出の注目度): 13.70228195630989
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reward sparsity in long-horizon reinforcement learning (RL) tasks remains a significant challenge, while existing outcome-based reward shaping struggles to define meaningful immediate rewards without introducing bias or requiring explicit task decomposition. Alternatively, verification-based reward shaping uses stepwise critics, but misalignment between immediate rewards and long-term objectives can lead to reward hacking and suboptimal policies. In this work, we address this problem in the context of software engineering (SWE) tasks, where multi-turn reasoning and rule-based verification are critical. We introduce the SWE-oriented RL Framework, a unified system supporting multi-turn interaction, docker-based execution, and customizable reward functions. Additionally, we propose Gated Reward Accumulation (G-RA), a novel method that accumulates immediate rewards only when high-level (long-term) rewards meet a predefined threshold, ensuring stable RL optimization. Experiments on SWE-bench Verified and kBench demonstrate that G-RA leads to an increase in completion rates (47.6\% \rightarrow 93.8\% and 22.0\% \rightarrow 86.0\%) and modification rates (19.6\% \rightarrow 23.8\% and 12.0\% \rightarrow 42.0\%), while avoiding policy degradation caused by reward misalignment. Our findings highlight the importance of balanced reward accumulation in long-horizon RL and provide a practical solution.
- Abstract(参考訳): 長期強化学習(RL)タスクの逆さは依然として大きな課題であり、既存の成果に基づく報酬形成は、バイアスや明示的なタスクの分解を必要とせず、意味のある即時報酬を定義するのに苦労している。
あるいは、検証ベースの報酬形成は、段階的に批判するが、即時報酬と長期目標のミスアライメントは、ハッキングや準最適ポリシーにつながる可能性がある。
本研究では,マルチターン推論とルールベースの検証が重要であるソフトウェア工学(SWE)タスクのコンテキストにおいて,この問題に対処する。
本稿では,マルチターンインタラクション,dockerベースの実行,カスタマイズ可能な報酬関数をサポートする統合システムであるSWE指向RLフレームワークを紹介する。
また,Gated Reward Accumulation (G-RA)を提案する。これは,高位(長期)報酬が予め定義されたしきい値を満たす場合にのみ即時報酬を蓄積し,安定したRL最適化を実現する手法である。
SWE-bench VerifiedとkBenchの実験は、G-RAが完成率(47.6\% \rightarrow 93.8\%と22.0\% \rightarrow 86.0\%)と修正率(19.6\% \rightarrow 23.8\%と12.0\% \rightarrow 42.0\%)の上昇につながることを示した。
本研究は, 長期RLにおける平衡報酬蓄積の重要性を強調し, 現実的な解決策を提供するものである。
関連論文リスト
- Towards Improving Reward Design in RL: A Reward Alignment Metric for RL Practitioners [15.25763345316458]
強化学習エージェントは、彼らが学んだ報酬関数の品質によって、基本的に制限されている。
本稿では, 人的利害関係者の軌道分布ランキングと, 与えられた報酬関数によって誘導されるものとの類似性を定量化するために, トラジェクティブアライメント係数を導入する。
論文 参考訳(メタデータ) (2025-03-08T00:38:17Z) - Process Reinforcement through Implicit Rewards [95.7442934212076]
複雑なプロセス報酬は、大きな言語モデル(LLM)の推論時間スケーリングにおいて、スパースな結果レベルの報酬よりも効果的な選択肢であることが証明されている。
ディエンス報酬は、その微粒な報酬が結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)に魅力的な選択を与える。
これは主に、高品質なプロセスラベルの収集が違法に高価であるオンラインのトレーニングプロセス報酬モデル(PRM)の課題に起因する可能性がある。
提案するPRIMEは,ポリシロールアウトと結果ラベルのみを用いて,インプットプロセス報酬によるオンラインPRM更新を可能にする。
論文 参考訳(メタデータ) (2025-02-03T15:43:48Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - The Distributional Reward Critic Framework for Reinforcement Learning Under Perturbed Rewards [31.550669983576544]
報酬信号は、強化学習におけるエージェントの望ましい振る舞いを定義する上で中心的な役割を果たす。
本稿では,トレーニング中の報酬分布と摂動を推定するための分配報酬批判フレームワークを提案する。
その結果、報奨環境下でRLを実行する能力の拡大と深化が図られた。
論文 参考訳(メタデータ) (2024-01-11T07:25:28Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。