論文の概要: StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.18401v1
- Date: Mon, 20 Apr 2026 15:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.969502
- Title: StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning
- Title(参考訳): StepPO: エージェント強化学習のためのステップアラインポリシー最適化
- Authors: Daoyu Wang, Qingchuan Li, Mingyue Cheng, Jie Ouyang, Shuo Yu, Qi Liu, Enhong Chen,
- Abstract要約: 一般的なエージェントはOpenClawやClaude Codeのような驚くべきアプリケーションを生み出している。
エージェント強化学習(RL: Agentic Reinforcement Learning)は、大規模言語モデルを強化するための訓練後のパラダイムとして登場した。
従来のトークンレベルのマルコフ決定プロセス(MDP)は段階的なMDPの定式化に進むべきである。
- 参考スコア(独自算出の注目度): 44.2992619825834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General agents have given rise to phenomenal applications such as OpenClaw and Claude Code. As these agent systems (a.k.a. Harnesses) strive for bolder goals, they demand increasingly stronger agentic capabilities from foundation Large Language Models (LLMs). Agentic Reinforcement Learning (RL) is emerging as a central post-training paradigm for empowering LLMs with these capabilities and is playing an increasingly pivotal role in agent training. Unlike single-turn token-level alignment or reasoning enhancement, as in RLHF and RLVR, Agentic RL targets multi-turn interactive settings, where the goal is to optimize core agentic capabilities such as decision making and tool use while addressing new challenges including delayed and sparse rewards, as well as long and variable context. As a result, the token-centric modeling and optimization paradigm inherited from traditional LLM RL is becoming increasingly inadequate for capturing real LLM agent behavior. In this paper, we present StepPO as a position on step-level Agentic RL. We argue that the conventional token-level Markov Decision Process (MDP) should be advanced to a step-level MDP formulation, and that the step, rather than the token, should be regarded as the proper action representation for LLM agents. We then propose step-level credit assignment as the natural optimization counterpart of this formulation, thereby aligning policy optimization and reward propagation with the granularity of agent decisions. Finally, we discuss the key systems designs required to realize step-level Agentic RL in practice and preliminary experiments provide initial evidence for the effectiveness of this perspective. We hope that the step-aligned, step-level paradigm embodied in StepPO offers the Agentic RL community a useful lens for understanding agent behavior and helps advance LLMs toward stronger general-agent capabilities.
- Abstract(参考訳): 一般的なエージェントはOpenClawやClaude Codeのような驚くべきアプリケーションを生み出している。
これらのエージェントシステム(別名Harnesses)はより大胆な目標に向かっているため、基盤となるLarge Language Models (LLMs) からより強力なエージェント機能を要求する。
エージェント強化学習(Agenic Reinforcement Learning, RL)は、これらの能力でLSMを強化するためのトレーニング後の中心的なパラダイムとして生まれ、エージェントトレーニングにおいてますます重要な役割を担っている。
RLHFやRLVRのようなシングルターントークンレベルのアライメントや推論の強化とは異なり、Agentic RLはマルチターンインタラクティブな設定を目標としている。
その結果、従来のLLM RLから受け継いだトークン中心のモデリングと最適化のパラダイムは、実際のLLMエージェントの振る舞いを捉えるのに不適切になりつつある。
本稿では,ステップレベルのエージェントRLの位置としてStepPOを提案する。
従来のトークンレベルのマルコフ決定プロセス (MDP) は段階的に MDP の定式化に進むべきであり、トークンよりもむしろステップを LLM エージェントの適切なアクション表現と見なすべきである。
そこで我々は,この定式化の自然な最適化手法として段階的信用割当を提案し,政策最適化と報酬伝達をエージェント決定の粒度と整合させる。
最後に,段階的なエージェントRLの実現に必要な重要なシステム設計について論じ,予備実験により,この視点の有効性を実証する。
StepPOに具現化されているステップアラインなステップレベルパラダイムは、エージェントの振る舞いを理解するための便利なレンズを提供し、より強力な汎用能力に向けてLSMを前進させるのに役立つことを願っている。
関連論文リスト
- Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning [45.88626187315028]
大規模言語モデル(LLM)は、複雑な問題を解決するために、アクティブな環境相互作用(例えばツールの使用)が可能なエージェントを構築するために、ますます研究されている。
本稿では,まず,マルコフ決定プロセス(MDP)フレームワークを体系的に拡張することにより,LLMエージェントの強化学習方法論を再検討し,解明する。
次に,RL ベースの LLM Agent のためのモジュール型でフレキシブルでユーザフレンドリなトレーニングフレームワークである Agent-R1 を紹介する。
論文 参考訳(メタデータ) (2025-11-18T13:03:15Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。