論文の概要: Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.10923v2
- Date: Sun, 17 May 2026 05:50:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.265319
- Title: Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning
- Title(参考訳): エージェント強化学習のための動的スキルライフサイクル管理
- Authors: Junhao Shen, Teng Zhang, Xiaoyan Zhao, Hong Cheng,
- Abstract要約: 大規模な言語モデルエージェントは、複雑なタスクを解決するために、ますます外部スキルに依存している。
既存の手法では、外部スキルは永続的なガイダンスとして蓄積するか、ポリシーに内部化され、ゼロスキル推論につながると仮定している。
パラメトリック能力の制限とスキル間の不均一な限界貢献により、最適なアクティブスキルセットは非モノトニック、タスク、ステージ依存である。
- 参考スコア(独自算出の注目度): 11.76119198695392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model agents increasingly rely on external skills to solve complex tasks, where skills act as modular units that extend their capabilities beyond what parametric memory alone supports. Existing methods assume external skills either accumulate as persistent guidance or internalized into the policy, eventually leading to zero-skill inference. We argue this assumption is overly restrictive, since with limited parametric capacity and uneven marginal contribution across skills, the optimal active skill set is non-monotonic, task- and stage-dependent. In this work, we propose SLIM, a framework of dynamic Skill LIfecycle Management for agentic reinforcement learning (RL), which treats the active external skill set as a dynamic optimization variable jointly updated with policy learning. Specifically, SLIM estimates each active skill's marginal external contribution through leave-one-skill-out validation, then applies three lifecycle operations: retaining high-value skills, retiring skills whose contribution becomes negligible after sufficient exposure, and expanding the skill bank when persistent failures reveal missing capability coverage. Experiments show that SLIM outperforms the best baselines by an average of 7.1% points across ALFWorld and SearchQA. Results further indicate that policy learning and external skill retention are not mutually exclusive: some skills are absorbed into the policy, while others continue to provide external value, supporting SLIM as a more general paradigm for skill-based agentic RL.
- Abstract(参考訳): 大規模な言語モデルエージェントは、複雑なタスクを解決するために、ますます外部スキルに依存している。
既存の手法では、外部スキルは永続的なガイダンスとして蓄積するか、ポリシーに内部化され、最終的にはゼロスキル推論につながると仮定している。
パラメトリック能力の制限とスキル間の不均一な限界貢献により、最適なアクティブスキルセットは非モノトニック、タスク、ステージ依存である。
本研究では,エージェント強化学習(RL)のための動的スキルLIfecycle ManagementのフレームワークであるSLIMを提案する。
特に、SLIMは、各活動スキルの限界的外部貢献を、離脱ワンスキルアウトバリデーションを通じて推定し、次に、高価値スキルの維持、十分な露出後に貢献が無視されるスキルの引退、持続的障害が不足する能力カバレッジを明らかにするスキルバンクの拡大という3つのライフサイクル操作を適用する。
SLIM は ALFWorld と SearchQA で平均7.1% で最高のベースラインを達成している。
さらに、政策学習と外部スキル保持は相互排他的ではなく、一部のスキルはポリシーに吸収され、他のスキルは外部価値を提供し続け、スキルベースのエージェントRLのより一般的なパラダイムとしてSLIMを支持している。
関連論文リスト
- Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings [29.3744517703302]
本研究は,段階的に挑戦的な現実的な環境下でのスキルユーティリティの総合的研究である。
その結果、設定がよりリアルになるにつれて、パフォーマンスは一貫して低下することがわかった。
クエリ固有の改善は、初期スキルが合理的な妥当性と品質を持つ場合に、性能を著しく回復することを示す。
論文 参考訳(メタデータ) (2026-04-06T00:10:30Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - Dynamic Dual-Granularity Skill Bank for Agentic RL [34.161117844675324]
D2Skillはエージェント強化学習のための動的二重粒度スキルバンクである。
再利用可能な経験をタスクスキルに整理し、高いレベルのガイダンスとステップスキルを使って、きめ細かい意思決定支援とエラー修正を行う。
論文 参考訳(メタデータ) (2026-03-30T17:32:11Z) - SUSD: Structured Unsupervised Skill Discovery through State Factorization [12.57032768854794]
教師なしスキル発見(USD)は、外因的な報酬に頼ることなく、多様なスキルセットを自律的に学習することを目的としている。
状態空間を独立成分に分解することで環境の構成構造を利用する新しいフレームワークであるSUSDを紹介する。
SUSDは異なる要因に異なるスキル変数を割り当て、スキル発見プロセスのよりきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2026-02-02T04:21:33Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。