論文の概要: Reinforcement Learning for Self-Improving Agent with Skill Library
- arxiv url: http://arxiv.org/abs/2512.17102v1
- Date: Thu, 18 Dec 2025 21:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.189804
- Title: Reinforcement Learning for Self-Improving Agent with Skill Library
- Title(参考訳): スキルライブラリを用いた自己改善エージェントの強化学習
- Authors: Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong,
- Abstract要約: 大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.717149089634718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities with a skill library. Specifically, we introduce Skill Augmented GRPO for self-Evolution (SAGE), a novel RL framework that systematically incorporates skills into learning. The framework's key component, Sequential Rollout, iteratively deploys agents across a chain of similar tasks for each rollout. As agents navigate through the task chain, skills generated from previous tasks accumulate in the library and become available for subsequent tasks. Additionally, the framework enhances skill generation and utilization through a Skill-integrated Reward that complements the original outcome-based rewards. Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、複雑な推論やマルチターンインタラクションにおいて顕著な能力を示してきたが、新しい環境にデプロイされた場合、継続的な改善と適応に苦慮している。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
しかし、現在のスキルライブラリのアプローチは主にLLMプロンプトに依存しており、一貫性のあるスキルライブラリの実装を困難にしている。
これらの課題を克服するために,スキルライブラリによるエージェントの自己改善能力を高めるために,強化学習(RL)に基づくアプローチを提案する。
具体的には,SAGE(Skill Augmented GRPO for Self-Evolution)について紹介する。
フレームワークの主要なコンポーネントであるSequential Rolloutは、ロールアウト毎に同様のタスクのチェーンにエージェントを反復デプロイする。
エージェントがタスクチェーンをナビゲートすると、以前のタスクから生成されたスキルがライブラリに蓄積され、その後のタスクで利用できるようになる。
さらに、このフレームワークは、本来の成果ベースの報酬を補完するスキル統合リワードを通じて、スキル生成と利用を促進する。
AppWorldの実験結果は、SAGEが専門家の経験を持つ教師付きファインチューニングモデルに適用された場合、シナリオゴールコンプリートが8.9%向上し、インタラクションステップが26%減少し、トークンが59%減少し、精度と効率の両方において既存のアプローチを大幅に上回っていることを実証している。
関連論文リスト
- Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - Skill Expansion and Composition in Parameter Space [17.016614374151747]
Parametric Skill Expansion and Composition (PSEC)はエージェントの能力を反復的に進化させるように設計された新しいフレームワークである。
PSECは、事前知識を活用して、新しい課題に効果的に取り組む能力が優れている。
論文 参考訳(メタデータ) (2025-02-09T15:22:38Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Variational Curriculum Reinforcement Learning for Unsupervised Discovery
of Skills [25.326624139426514]
本稿では,VUVC(Value Uncertainty Vari Curriculum Curriculum)と呼ばれる情報理論に基づく教師なしスキル発見手法を提案する。
規則性条件下では、VUVCは、均一なカリキュラムに比べて訪問状態のエントロピーの増加を加速させる。
また,本手法によって発見された技術は,ゼロショット設定で現実のロボットナビゲーションタスクを達成できることを実証した。
論文 参考訳(メタデータ) (2023-10-30T10:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。