論文の概要: Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.22601v2
- Date: Thu, 09 Oct 2025 04:27:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.711554
- Title: Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning
- Title(参考訳): ロープを学び、勝利を信頼する: エージェント強化学習のための進歩的探索による自己想像
- Authors: Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun,
- Abstract要約: エージェントLLMを学習するためのカリキュラムベースの自己アニメーション学習(SIL)レシピであるSPEARを提案する。
具体的には,本手法は,本質的な報奨を生かして,技術レベルの探究を促進するためのカリキュラムを取り入れている。
さらにトレーニングを安定させるために、リプレイバッファでの経験の利点を再検討し、潜在的ポリシードリフトに対処する。
- 参考スコア(独自算出の注目度): 41.90621652673528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is the dominant paradigm for sharpening strategic tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks, yet it faces a fundamental challenge of exploration-exploitation trade-off. Existing studies stimulate exploration through the lens of policy entropy, but such mechanical entropy maximization is prone to RL training instability due to the multi-turn distribution shifting. In this paper, we target the progressive exploration-exploitation balance under the guidance of the agent own experiences without succumbing to either entropy collapsing or runaway divergence. We propose SPEAR, a curriculum-based self-imitation learning (SIL) recipe for training agentic LLMs. It extends the vanilla SIL framework, where a replay buffer stores self-generated promising trajectories for off-policy update, by gradually steering the policy evolution within a well-balanced range of entropy across stages. Specifically, our approach incorporates a curriculum to manage the exploration process, utilizing intrinsic rewards to foster skill-level exploration and facilitating action-level exploration through SIL. At first, the auxiliary tool call reward plays a critical role in the accumulation of tool-use skills, enabling broad exposure to the unfamiliar distributions of the environment feedback with an upward entropy trend. As training progresses, self-imitation gets strengthened to exploit existing successful patterns from replayed experiences for comparative action-level exploration, accelerating solution iteration without unbounded entropy growth. To further stabilize training, we recalibrate the advantages of experiences in the replay buffer to address the potential policy drift. Reugularizations such as the clipping of tokens with high covariance between probability and advantage are introduced to the trajectory-level entropy control to curb over-confidence.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 長期的かつ疎遠なエージェントタスクにおいて, LLMの戦略ツール利用能力を向上するための主要なパラダイムであるが, 探索・探索トレードオフの根本的な課題に直面している。
既存の研究は、政策エントロピーのレンズによる探索を刺激するが、そのような機械エントロピーの最大化は、マルチターン分布シフトによるRLトレーニング不安定性に起因する。
本稿では,エントロピー崩壊や脱走の相違を生じさせることなく,エージェント自身の経験の指導の下で,進行的な探査・探査バランスを目標とする。
エージェントLLMを学習するためのカリキュラムベースの自己アニメーション学習(SIL)レシピであるSPEARを提案する。
リプレイバッファは、段階的にバランスのとれたエントロピーの範囲内で、ポリシーの進化を段階的にコントロールすることで、自己生成可能なトラジェクトリを非政治的な更新のために格納する。
具体的には,本手法は,本質的な報酬を生かして,スキルレベルの探索を促進し,SILによるアクションレベルの探索を促進するためのカリキュラムを取り入れている。
まず、補助ツールコール報酬は、ツール利用スキルの蓄積において重要な役割を担い、上向きのエントロピー傾向を伴う環境フィードバックの不慣れな分布に広範囲に暴露することができる。
トレーニングが進むにつれて、自己想像が強化され、比較アクションレベルの探索や、無制限のエントロピー成長を伴わないソリューションイテレーションの加速といった、既存の成功パターンを活用することが可能になります。
さらにトレーニングを安定させるために、リプレイバッファでの経験の利点を再検討し、潜在的ポリシードリフトに対処する。
軌道レベルのエントロピー制御には、確率と優位性の間の共分散性の高いトークンのクリッピングのような拡張が導入され、過信を抑制する。
関連論文リスト
- RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization [29.421185758698908]
エージェント強化学習(Agentic RL)は,大規模言語モデルベース(LLM)エージェントにおいて顕著な可能性を示している。
本稿では、学習中の探索を明示的に拡張する検索を導入した新しいRLフレームワークである検索型ポリシー最適化(RAPO)を提案する。
RAPOは、3つのエージェント推論タスクにわたる14のデータセットの平均ゲインを+5.0%達成し、トレーニング効率は1.2倍向上した。
論文 参考訳(メタデータ) (2026-03-03T15:23:42Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Experiential Reinforcement Learning [22.545003569634982]
経験的強化学習(英語: Experiential Reinforcement Learning, ERL)は、学習プロセスに明示的な経験的回帰・統合のループを組み込む訓練パラダイムである。
ERLは、強い強化学習ベースラインよりも学習効率と最終性能を一貫して改善する。
これらの結果は、明示的な自己回帰を政策訓練に統合することは、フィードバックを耐久性のある行動改善に変換するための実践的なメカニズムをもたらすことを示唆している。
論文 参考訳(メタデータ) (2026-02-15T01:23:48Z) - EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning [15.529826552402769]
スパース報酬を伴うマルチターン環境におけるLLMエージェントの訓練は、強化学習の根本的な課題である。
この設定に特有のクリティカルな障害モード、すなわち探索・探索カスケードの障害を特定します。
本稿では,この障害サイクルを3つの相乗的メカニズムによって破る一般的なフレームワークであるエントロピー規則化政策最適化(EPO)を提案する。
論文 参考訳(メタデータ) (2025-09-26T16:51:44Z) - Online Process Reward Leanring for Agentic Reinforcement Learning [92.26560379363492]
大規模言語モデル(LLM)は、強化学習(RL)を自律的なエージェントとして訓練されることが増えている。
最近の研究は、プロセスの監視をエージェント学習に統合しようと試みているが、バイアスドアノテーションに悩まされている。
エージェントRLの一般的なクレジットアサインメント戦略であるオンライン・プロセス・リワード・ラーニング(OPRL)を紹介する。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。