論文の概要: Dynamic Dual-Granularity Skill Bank for Agentic RL
- arxiv url: http://arxiv.org/abs/2603.28716v1
- Date: Mon, 30 Mar 2026 17:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.540522
- Title: Dynamic Dual-Granularity Skill Bank for Agentic RL
- Title(参考訳): エージェントRL用動的デュアルグラニュラリティスキルバンク
- Authors: Songjun Tu, Chengdong Xu, Qichao Zhang, Yaocheng Zhang, Xiangyuan Lan, Linjing Li, Dongbin Zhao,
- Abstract要約: D2Skillはエージェント強化学習のための動的二重粒度スキルバンクである。
再利用可能な経験をタスクスキルに整理し、高いレベルのガイダンスとステップスキルを使って、きめ細かい意思決定支援とエラー修正を行う。
- 参考スコア(独自算出の注目度): 34.161117844675324
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Agentic reinforcement learning (RL) can benefit substantially from reusable experience, yet existing skill-based methods mainly extract trajectory-level guidance and often lack principled mechanisms for maintaining an evolving skill memory. We propose D2Skill, a dynamic dual-granularity skill bank for agentic RL that organizes reusable experience into task skills for high-level guidance and step skills for fine-grained decision support and error correction. D2Skill jointly trains the policy and skill bank through paired baseline and skill-injected rollouts under the same policy, using their performance gap to derive hindsight utility signals for both skill updating and policy optimization. Built entirely from training-time experience, the skill bank is continuously expanded through reflection and maintained with utility-aware retrieval and pruning. Experiments on ALFWorld and WebShop with Qwen2.5-7B-Instruct and Qwen3-4B-Instruct-2507 show that D2Skill consistently improves success rates over skill-free baselines by 10-20 points. Further ablations and analyses show that both dual-granularity skill modeling and dynamic skill maintenance are critical to these gains, while the learned skills exhibit higher utility, transfer across evaluation settings, and introduce only modest training overhead.
- Abstract(参考訳): エージェント強化学習(RL)は、再利用可能な経験からかなりの恩恵を受けるが、既存のスキルベース手法は主に軌道レベルのガイダンスを抽出し、しばしば進化するスキルメモリを維持するための原則的なメカニズムを欠いている。
本稿では,エージェントRLのための動的二重粒度スキルバンクであるD2Skillを提案する。
D2Skillは、同じ方針の下で2つのベースラインとスキル注入されたロールアウトを通じて、ポリシーとスキルバンクを共同で訓練する。
スキルバンクはリフレクションを通じて継続的に拡張され、ユーティリティ対応の検索とプルーニングによって維持される。
ALFWorldとWebShopのQwen2.5-7B-InstructとQwen3-4B-Instruct-2507による実験では、D2Skillはスキルのないベースラインよりも10~20ポイントの成功率を一貫して改善している。
さらに、二重粒度スキルモデリングと動的スキルメンテナンスの両方がこれらの向上に不可欠である一方で、学習スキルは高い実用性を示し、評価設定をまたいで転送し、適度なトレーニングオーバーヘッドのみを導入している。
関連論文リスト
- XSkill: Continual Learning from Experience and Skills in Multimodal Agents [26.64381741359544]
XSkillはマルチモーダルエージェントの経験とスキルから継続的に学習するためのデュアルストリームフレームワークである。
XSkillは、視覚観察における知識抽出と検索の両方の基礎となる。
XSkillは、ツールのみのベースラインと学習ベースのベースラインの両方を一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2026-03-12T15:25:57Z) - SkillOrchestra: Learning to Route Agents via Skill Transfer [65.50924963973286]
スキルを意識したオーケストレーションのためのフレームワークであるSkillOrchestraを紹介します。
SkillOrchestraは、実行経験からきめ細かいスキルを学び、それらのスキルの下でエージェント固有の能力とコストをモデル化する。
デプロイメントでは、オーケストレータが現在のインタラクションのスキル要件を推測し、明示的なパフォーマンスコストトレードオフの下でそれらを最も満足するエージェントを選択する。
論文 参考訳(メタデータ) (2026-02-23T10:17:25Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Skill-Enhanced Reinforcement Learning Acceleration from Heterogeneous Demonstrations [23.628360655654507]
実証から学ぶ(LfD)は強化学習(RL)において確立された問題である
本稿では,Skill-enhanced Reinforcement Learning Acceleration (SeRLA)と呼ばれる新しい2段階の手法を提案する。
論文 参考訳(メタデータ) (2024-12-09T04:58:14Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning [27.69559938165733]
実践とホーミングのスキルは、人間の学習の基本的な要素だが、人工エージェントは、それらを実行するために特別に訓練されることはめったにない。
複雑な環境下での強化学習(RL)エージェントの訓練に、どのようにスキルを組み込むことができるかを検討する。
本実験により, 複雑な問題に対するエージェントの性能向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2022-07-23T19:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。