論文の概要: SLEA-RL: Step-Level Experience Augmented Reinforcement Learning for Multi-Turn Agentic Training
- arxiv url: http://arxiv.org/abs/2603.18079v1
- Date: Wed, 18 Mar 2026 07:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.748078
- Title: SLEA-RL: Step-Level Experience Augmented Reinforcement Learning for Multi-Turn Agentic Training
- Title(参考訳): SLEA-RL:マルチターンエージェントトレーニングのためのステップレベル体験強化強化学習
- Authors: Prince Zizhuang Wang, Shuli Jiang,
- Abstract要約: 本研究では,SLEA-RL(Step-Level Experience-Augmented Reinforcement Learning)を提案する。
SLEA-RLは、(i)効率的なクラスタインデックス検索のために構造的に等価な環境状態をグループ化するステップレベルの監視クラスタリング、(ii)スコアベースの入出力とレート制限抽出を通じて成功戦略と失敗パターンを蒸留する自己進化体験ライブラリ、(iii)マルチターンエピソード間のきめ細かな優位性推定のためのステップレベルの信用割当によるポリシー最適化の3つのコンポーネントを通して機能する。
- 参考スコア(独自算出の注目度): 2.291770711277359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents have shown strong results on multi-turn tool-use tasks, yet they operate in isolation during training, failing to leverage experiences accumulated across episodes. Existing experience-augmented methods address this by organizing trajectories into retrievable libraries, but they retrieve experiences only once based on the initial task description and hold them constant throughout the episode. In multi-turn settings where observations change at every step, this static retrieval becomes increasingly mismatched as episodes progress. We propose SLEA-RL (Step-Level Experience-Augmented Reinforcement Learning), a framework that retrieves relevant experiences at each decision step conditioned on the current observation. SLEA-RL operates through three components: (i) step-level observation clustering that groups structurally equivalent environmental states for efficient cluster-indexed retrieval; (ii) a self-evolving experience library that distills successful strategies and failure patterns through score-based admission and rate-limited extraction; and (iii) policy optimization with step-level credit assignment for fine-grained advantage estimation across multi-turn episodes. The experience library evolves alongside the policy through semantic analysis rather than gradient updates. Experiments on long-horizon multi-turn agent benchmarks demonstrate that SLEA-RL achieves superior performance compared to various reinforcement learning baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、マルチターンツール使用タスクにおいて強力な結果を示しているが、トレーニング中に独立して動作し、エピソード全体で蓄積された経験を活用することができない。
既存のエクスペリエンス拡張メソッドは、トラジェクトリを検索可能なライブラリに整理することでこの問題に対処するが、最初のタスク記述に基づいて一度だけエクスペリエンスを検索し、エピソード全体を通して一定に保持する。
各ステップで観測が変わるマルチターン設定では、エピソードが進行するにつれて、この静的検索はますます不一致になる。
本研究では,SLEA-RL(Step-Level Experience-Augmented Reinforcement Learning)を提案する。
SLEA-RLは3つのコンポーネントを通して動作する。
一 効率的なクラスタインデックス検索のための構造的に等価な環境状態をグループ化する段階的観測クラスタリング
(二 スコアベース入場及びレート制限抽出により、成功戦略及び失敗パターンを蒸留する自己進化体験図書館
三 マルチターンエピソード間のきめ細かい有利度推定のためのステップレベル信用割当による政策最適化
エクスペリエンスライブラリは、勾配更新ではなく、セマンティック分析を通じてポリシーとともに進化する。
長距離マルチターンエージェントベンチマーク実験により,SLEA-RLは各種強化学習ベースラインと比較して優れた性能を示した。
関連論文リスト
- Retrieval-Augmented LLM Agents: Learning to Learn from Experience [16.248836438253814]
本研究では,検索対象のLLMエージェントを学習し,検索したトラジェクトリをコンテキスト内で活用する方法について検討する。
最先端のエージェントトレーニングパイプラインよりも優れたロラを用いた,堅牢な教師付き微調整(SFT)レシピを確立した。
その結果,この組み合わせによるタスクの一般化が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2026-03-18T20:45:04Z) - Training-Free Group Relative Policy Optimization [34.73950078782136]
我々は,Large Language Model (LLM) エージェントが,経験的知識を先行するトークンとして学習することで,出力分布に類似した効果を得られることを論じる。
我々は,LLMエージェントの性能をパラメータ更新なしで向上する,費用対効果の高いソリューションであるTraining-Free Group Relative Policy Optimization (Training-Free GRPO)を提案する。
数学的推論とWeb検索タスクの実験により、DeepSeek-V3.1-Terminusに適用されたトレーニングフリーGRPOは、ドメイン外のパフォーマンスを大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-10-09T13:18:17Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。