論文の概要: SkillMaster: Toward Autonomous Skill Mastery in LLM Agents
- arxiv url: http://arxiv.org/abs/2605.08693v2
- Date: Tue, 12 May 2026 07:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.925609
- Title: SkillMaster: Toward Autonomous Skill Mastery in LLM Agents
- Title(参考訳): SkillMaster: LLMエージェントにおける自律的なスキル習得を目指して
- Authors: Min Yang, Jinghua Piao, Xu Xia, Xiaochong Lan, Jiaju Chen, Yongshun Gong, Yong Li,
- Abstract要約: SkillMasterは、エージェントに新しいスキルを作り、既存のスキルを洗練させ、タスク解決中に蓄積したスキルを選択する訓練フレームワークである。
第一に、私たちは、軌道インフォームドスキルレビューを通じてエージェントを訓練し、完成したエピソードの証拠に基づいて、提案、更新、保持するためのエージェントを指導する。
第2に、各候補スキル編集は、関連するプローブタスクに対する対実的ユーティリティによって評価され、スキル編集決定を訓練するための直接学習信号を提供する。
第3に、DualAdv-GRPOを導入し、タスク解決行動とスキル編集決定の利点を個別に推定し、タスク解決における共同トレーニングを安定化する。
- 参考スコア(独自算出の注目度): 27.651128308229378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skills provide an effective mechanism for improving LLM agents on complex tasks, yet in existing agent frameworks, their creation, refinement, and selection are typically governed by external teachers, hand-designed rules, or auxiliary modules. As a result, skills remain external resources to be invoked, rather than capabilities that agents can develop, adapt, and internalize through experience. To endow LLM agents with autonomous skill mastery, we propose SkillMaster, a training framework that teaches agents to create new skills, refine existing skills, and select accumulated skills during task solving. This capability is achieved through three key designs. First, we train agents through trajectory-informed skill review, teaching agents to propose, update, or retain skills based on evidence from completed episodes. Second, each candidate skill edit is designed to be evaluated by its counterfactual utility on related probe tasks, providing a direct learning signal for training skill-editing decisions. Third, we introduce DualAdv-GRPO, which separately estimates advantages for task-solving actions and skill-editing decisions, stabilizing joint training across task solving and skill management. Experiments on ALFWorld and WebShop show that SkillMaster improves the overall success rate over state-of-the-art baselines by 8.8% and 9.3%, respectively, achieving the best performance among all compared methods. Further analysis reveals a marked shift in agent capability: agents trained with SkillMaster can identify skill failures, refine procedural knowledge from trajectory evidence, and transfer improvements to future tasks with limited skill-bank edits. Overall, SkillMaster moves LLM agents beyond mere skill use toward self-improving agents capable of developing, adapting, and applying their own skill repertoires.
- Abstract(参考訳): スキルは複雑なタスクにおいてLLMエージェントを改善する効果的なメカニズムを提供するが、既存のエージェントフレームワークでは、その作成、洗練、選択は通常、外部の教師、手書きのルール、補助モジュールによって管理される。
結果として、エージェントが経験を通じて開発、適応、内部化できる能力ではなく、実行すべき外部リソースがスキルとして残されることになる。
本研究では,LLMエージェントに自律的なスキル習得を授けるために,エージェントに新たなスキルを創造し,既存のスキルを洗練させ,タスク解決時に蓄積したスキルを選択するためのトレーニングフレームワークであるSkillMasterを提案する。
この能力は3つの重要な設計によって実現される。
第一に、私たちは、軌道インフォームドスキルレビューを通じてエージェントを訓練し、完成したエピソードの証拠に基づいて、提案、更新、保持するためのエージェントを指導する。
第2に、各候補スキル編集は、関連するプローブタスクに対する対実的ユーティリティによって評価され、スキル編集決定を訓練するための直接学習信号を提供する。
第3に、DualAdv-GRPOを導入し、タスク解決行動とスキル編集決定の利点を個別に推定し、タスク解決とスキルマネジメントをまたいだ共同トレーニングを安定化させる。
ALFWorldとWebShopの実験では、SkillMasterは最先端のベースラインに対する全体的な成功率を8.8%と9.3%改善し、比較したすべてのメソッドの中で最高のパフォーマンスを実現している。
SkillMasterで訓練されたエージェントは、スキル障害を特定し、軌道証拠から手続き的知識を洗練し、スキルバンクの編集に制限のある将来のタスクに改善を移すことができる。
全体として、SkillMasterはLLMエージェントを単なるスキル使用を超えて、独自のスキルレパートリーを開発し、適応し、適用することができる自己改善エージェントへと移行する。
関連論文リスト
- SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。
SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。
SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:31:50Z) - From Context to Skills: Can Language Models Learn from Context Skillfully? [56.5857437218136]
Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
論文 参考訳(メタデータ) (2026-04-30T09:53:15Z) - Skill Retrieval Augmentation for Agentic AI [28.71123853744993]
既存のエージェントシステムでは、スキルを取り入れるための主要な戦略は、コンテキストウィンドウ内で利用可能なスキルを列挙することである。
本稿では,SRA(Skill Retrieval Augmentation, SRA)を定式化し, エージェントが要求に応じて外部スキルコーパスから適切なスキルを動的に取得し, 取り入れ, 適用する新しいパラダイムについて述べる。
SRA-Benchは、完全なSRAパイプラインの評価のための最初のベンチマークであり、スキル検索、スキルの取り込み、エンドタスクの実行をカバーしている。
論文 参考訳(メタデータ) (2026-04-27T15:19:59Z) - How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings [29.3744517703302]
本研究は,段階的に挑戦的な現実的な環境下でのスキルユーティリティの総合的研究である。
その結果、設定がよりリアルになるにつれて、パフォーマンスは一貫して低下することがわかった。
クエリ固有の改善は、初期スキルが合理的な妥当性と品質を持つ場合に、性能を著しく回復することを示す。
論文 参考訳(メタデータ) (2026-04-06T00:10:30Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - Dynamic Dual-Granularity Skill Bank for Agentic RL [34.161117844675324]
D2Skillはエージェント強化学習のための動的二重粒度スキルバンクである。
再利用可能な経験をタスクスキルに整理し、高いレベルのガイダンスとステップスキルを使って、きめ細かい意思決定支援とエラー修正を行う。
論文 参考訳(メタデータ) (2026-03-30T17:32:11Z) - MaestroMotif: Skill Design from Artificial Intelligence Feedback [67.17724089381056]
MaestroMotifはAI支援スキルデザインの手法であり、高性能で適応可能なエージェントを生成する。
本稿では,AIを活用したスキルデザイン手法であるMaestroMotifについて述べる。
論文 参考訳(メタデータ) (2024-12-11T16:59:31Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。