論文の概要: ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL
- arxiv url: http://arxiv.org/abs/2606.01619v1
- Date: Mon, 01 Jun 2026 03:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.89486
- Title: ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL
- Title(参考訳): ReSkill: エージェントRLのポリシー最適化によるスキル創造の調整
- Authors: Zelin He, Haotian Lin, Boran Han, Wei Zhu, Haoyang Fang, Bernie Wang, Xuan Zhu, Runze Li, Matthew Reimherr,
- Abstract要約: 本稿では,RL-in-the-loopスキル作成フレームワークであるReSkillを紹介する。
ReSkillはGRPOの群構造を利用して、3つのメカニズムを埋め込む。
いくつかのドメインで、ReSkillは既存のメモリとスキルベースのRLメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 24.65745354725497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic reinforcement learning (RL) enables LLM agents to improve continuously from environment rewards, yet the resulting policies do not systematically accumulate reusable strategies that generalize across tasks. Modular skills can provide such reusable strategies, yet existing skill-augmented RL methods decouple skill creation from policy optimization, risking adopting skills that conflict with the evolving policy. Inspired by Anthropic's Skill Creator, we introduce ReSkill, an RL-in-the-loop skill creation framework that reconciles skill evolution with policy learning. ReSkill exploits the group-wise structure of GRPO to naturally embed three mechanisms with only marginal additional overhead: (1) an assertion-driven skill creator that diagnoses failures from past experience and proposes conditional, trigger-based skill revisions; (2) within-group rollout sampling that enables controlled comparison of skill versions, capturing which version best supports the policy's ongoing learning; and (3) Thompson Sampling with adaptive discounting to balance exploration and exploitation in skill version selection as the policy evolves. Across several domains, ReSkill consistently outperforms existing memory and skill-based RL methods, with the largest gains on unseen tasks. Analysis of the skill lifecycle shows skills being automatically created, tested, refined, and pruned as the policy improves, demonstrating reconciled skill-policy co-evolution.
- Abstract(参考訳): エージェント強化学習(RL)により、LLMエージェントは環境報酬から継続的に改善することができるが、結果として得られるポリシーは、タスク全体にわたって一般化する再利用可能な戦略を体系的に蓄積しない。
モジュラースキルは、そのような再利用可能な戦略を提供することができるが、既存のスキル強化されたRLメソッドは、スキル創造をポリシー最適化から切り離し、進化するポリシーと矛盾するスキルを採用するリスクを負う。
AnthropicのスキルクリエータにインスパイアされたReSkillは、RL-in-the-loopスキル作成フレームワークで、スキルの進化とポリシー学習を調整します。
ReSkillはGRPOのグループワイド構造を利用して、3つのメカニズムを自然に埋め込む。(1)過去の経験から失敗を診断し、条件付きトリガベースのスキルリビジョンを提案するアサーション駆動のスキルクリエーター、(2)スキルバージョンの比較を制御可能なグループ内ロールアウトサンプリング、(2)ポリシーの継続的な学習を最もサポートしているバージョンをキャプチャする、(3)Thompson Smplingは、ポリシーが進化するにつれて、スキルバージョン選択における探索と活用のバランスをとるために適応ディスカウントを用いてサンプリングする。
いくつかのドメインで、ReSkillは既存のメモリとスキルベースのRLメソッドを一貫して上回り、目に見えないタスクで最大の利益を上げている。
スキルライフサイクルの分析は、ポリシーが改善されるにつれて、スキルが自動的に作成され、テストされ、洗練され、刈り取られていることを示している。
関連論文リスト
- Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning [25.966432263031397]
Skill0.5は、一般的なスキル内部化とタスク固有のスキル利用を組み合わせることで、スキル処理を明確に区別する新しいエージェントRLフレームワークである。
特典蒸留によって一般的なスキルを内包し、ハードタスクの認知基盤を構築すると同時に、ショートカットをペナルティ化し、特定のスキル利用を強制するための簡単なタスクを診断する。
ALFWorldとWebShopの実験では、Skill0.5はメモリベースのRLベースラインとスキルベースのRLベースラインの両方を上回っている。
論文 参考訳(メタデータ) (2026-05-27T12:54:33Z) - SKILLC: Learning Autonomous Skill Internalization in LLM Agents via Contrastive Credit Assignment [4.336665585098371]
本稿では,このコントラストを内部化のための直接学習信号に変換するContrastive Skill Credit Assignment (CSCA) に基づくフレームワークであるSkillCを提案する。
textscSkillCは、同じポリシー更新内でアクティブなスキルタイプからのタスクに対して、ペア化されたスキル注入とスキルフリーのロールアウトをサンプリングする。
スムーズな検証レベル信号は、帰属強度、ロールアウトアロケーション、単調なアクティブセットプルーニングよりも適応的なカリキュラムを駆動する。
論文 参考訳(メタデータ) (2026-05-27T03:21:19Z) - Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents [6.293920920196533]
SkillLensは階層的なスキル進化フレームワークで、スキルをポリシー、戦略、手順、プリミティブの4層グラフにまとめる。
セマンティックなスキルシードを検索し、スキルグラフの次数補正されたランダムウォークを通じて拡張し、各訪問したユニットが受け入れられ、分解され、書き直され、スキップされるかどうかを検証器を使って決定する。
MuLocbenchとALFWorld全体で、SkillLensは、強いスキルベースのベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-08T18:48:04Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。