論文の概要: SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution
- arxiv url: http://arxiv.org/abs/2505.20732v1
- Date: Tue, 27 May 2025 05:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.420656
- Title: SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution
- Title(参考訳): SPA-RL:ステップワイドプログレスアトリビューションによるLDM剤の強化
- Authors: Hanlin Wang, Chak Tou Leong, Jiashuo Wang, Jian Wang, Wenjie Li,
- Abstract要約: 強化学習は、複雑な目標志向のタスクを扱うためのトレーニングエージェントの約束である。
フィードバック信号は通常、タスク全体が完了した後でのみ利用可能である。
我々は、最終報酬を段階的な貢献に分解するステップワイドプログレス属性を提案する。
- 参考スコア(独自算出の注目度): 9.181156720071547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) holds significant promise for training LLM agents to handle complex, goal-oriented tasks that require multi-step interactions with external environments. However, a critical challenge when applying RL to these agentic tasks arises from delayed rewards: feedback signals are typically available only after the entire task is completed. This makes it non-trivial to assign delayed rewards to earlier actions, providing insufficient guidance regarding environmental constraints and hindering agent training. In this work, we draw on the insight that the ultimate completion of a task emerges from the cumulative progress an agent makes across individual steps. We propose Stepwise Progress Attribution (SPA), a general reward redistribution framework that decomposes the final reward into stepwise contributions, each reflecting its incremental progress toward overall task completion. To achieve this, we train a progress estimator that accumulates stepwise contributions over a trajectory to match the task completion. During policy optimization, we combine the estimated per-step contribution with a grounding signal for actions executed in the environment as the fine-grained, intermediate reward for effective agent training. Extensive experiments on common agent benchmarks (including Webshop, ALFWorld, and VirtualHome) demonstrate that SPA consistently outperforms the state-of-the-art method in both success rate (+2.5\% on average) and grounding accuracy (+1.9\% on average). Further analyses demonstrate that our method remarkably provides more effective intermediate rewards for RL training. Our code is available at https://github.com/WangHanLinHenry/SPA-RL-Agent.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、外部環境とのマルチステップインタラクションを必要とする複雑な目標指向タスクを扱うために、LLMエージェントを訓練するための重要な約束を持っている。
しかしながら、これらのエージェントタスクにRLを適用する際の重要な課題は、遅延報酬によって生じる: フィードバック信号は、通常、タスク全体が完了した後のみ利用可能である。
これにより、以前の行動に遅れた報酬を割り当てることは簡単ではなく、環境制約に関するガイダンスが不十分であり、エージェントのトレーニングを妨げている。
本研究では,エージェントが個々のステップにまたがって行う累積的な進捗から,タスクの最終的な完了が生じるという知見に基づく。
SPA(Stepwise Progress Attribution)は、最終報酬を段階的なコントリビューションに分解する一般的な報酬再分配フレームワークである。
これを実現するために,作業完了に合わせた軌道上の段階的な貢献を蓄積する進捗推定器を訓練する。
政策最適化の過程では,各ステップ毎のコントリビューションの推定値と,環境下で実行されるアクションのグラウンド信号とを,効果的なエージェントトレーニングのための細粒度中間報酬として組み合わせる。
一般的なエージェントベンチマーク(Webshop、ALFWorld、VirtualHomeを含む)の大規模な実験では、SPAは成功率(平均2.5倍)と接地精度(平均+1.9倍)の両方で、最先端の手法を一貫して上回っている。
さらなる分析により,本手法はRLトレーニングにおいてより効果的な中間報酬を提供することが示された。
私たちのコードはhttps://github.com/WangHanLinHenry/SPA-RL-Agent.comで公開されています。
関連論文リスト
- RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。
実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。
この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:27:54Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。
学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Task Phasing: Automated Curriculum Learning from Demonstrations [46.1680279122598]
報酬ドメインを疎結合にするために強化学習を適用することは、ガイド信号が不十分なため、非常に難しい。
本稿では,実演を用いてカリキュラムのシーケンスを自動的に生成する手法を提案する。
3つのスパース報酬領域に対する実験結果から,我々のタスク・ファスリング・アプローチは,パフォーマンスに関して最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-20T03:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。