論文の概要: SkillEvolver: Skill Learning as a Meta-Skill
- arxiv url: http://arxiv.org/abs/2605.10500v1
- Date: Mon, 11 May 2026 12:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.824662
- Title: SkillEvolver: Skill Learning as a Meta-Skill
- Title(参考訳): SkillEvolver: メタスキルとしてのスキル学習
- Authors: Genrui Zhang, Erle Zhu, Jinfeng Zhou, Caiyan Jia, Hongning Wang,
- Abstract要約: オンラインスキル学習のための軽量なプラグアンドプレイソリューションである textbfSkillEvolver を提案する。
SkillEvolverの学習対象は、モデルの重みではなく、スキルの散文とコードである。
微量蒸留とは異なり、メタスキルは学習スキルの展開後にのみ洗練される。
- 参考スコア(独自算出の注目度): 46.52001686198623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent skills today are static artifact: authored once -- by human curation or one-shot generation from parametric knowledge -- and then consumed unchanged, with no mechanism to improve from real use. We propose \textbf{SkillEvolver}, a lightweight, plug-and-play solution for online skill learning, in which a single meta-skill iteratively authors, deploys, and refines domain-specific skills. The learning target of SkillEvolver is the skill's prose and code, not model weights, so that the resulting artifact drops into any agent without retraining; and the meta-skill itself is just another skill, loaded through the same interface by any protocol-compliant CLI-agent. Unlike trace-distillation, the meta-skill refines only after deploying the learnt skill, such that the learning signal comes from failures another agent encounters while using it -- not from exploratory traces alone. Refinement iterations are governed by a fresh-agent overfit audit that catches possible leakage as well as deployed-skill-specific failures, including the silent-bypass mode in which a skill appears valid in content but is never invoked at runtime. On $83$ SkillsBench tasks spanning $15^{+}$ domains, SkillEvolver reaches $56.8\%$ accuracy versus $43.6\%$ for curated human skills and $29.9\%$ for the no-skill baseline; on three GPU kernel optimization tasks from KernelBench, it also raises mean speedup from $1.16$ to $1.51$ on average.
- Abstract(参考訳): 現在のエージェントスキルは静的アーティファクト(静的アーティファクト)である – 人間のキュレーションやパラメトリック知識からのワンショット生成によって1回作成され、その後に消費される。
オンラインスキル学習のための軽量でプラグアンドプレイのソリューションである‘textbf{SkillEvolver}’を提案し、単一のメタスキルを反復的に作成し、デプロイし、ドメイン固有のスキルを洗練する。
SkillEvolverの学習対象は、モデルの重みではなく、スキルの散文とコードであり、結果の成果物が再トレーニングせずに任意のエージェントに落下する。
トレース蒸留とは異なり、メタスキルは学習スキルのデプロイ後にのみ洗練され、学習信号が他のエージェントが使用中に遭遇する障害から来る。
リファインメントイテレーションは、可能性のあるリークとデプロイされたスキル固有の障害をキャッチする、新しいエージェントのオーバーフィット監査によって管理される。
SkillEvolverは$15^{+}のドメインにまたがる8,3ドルのSkillsBenchタスクで、正確性は$56.8\%、キュレートされた人間のスキルは$43.6\%、ノスキルベースラインは$29.9\%、KernelBenchの3つのGPUカーネル最適化タスクでは平均で$16$から$1.51$に上昇する。
関連論文リスト
- SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。
SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。
SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:31:50Z) - Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills [27.93279540484981]
Graph of Skills (GoS)は、大規模スキルライブラリのための推論時構造検索層である。
GoSはバニラのフルスキルローディングベースラインに対して平均報酬を43.6%改善した。
GoSは、バニラスキルローディングと単純なベクトル検索の両方を一貫して上回る。
論文 参考訳(メタデータ) (2026-04-07T02:09:11Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - SkillRouter: Skill Routing for LLM Agents at Scale [18.540967600258607]
ユーザタスクが与えられたら、システムは、下流の計画や実行の前に、関連するスキルを特定する必要がある。
既存のエージェントスタックはプログレッシブな開示に依存しており、完全な実装ボディを隠蔽しながら、スキル名と記述のみを公開する。
1.2Bのコンパクトなフルテキスト検索/参照パイプラインであるSkillを提示する。
論文 参考訳(メタデータ) (2026-03-23T18:23:59Z) - SkillClone: Multi-Modal Clone Detection and Clone Propagation Analysis in the Agent Skill Ecosystem [16.221297353469957]
エージェントスキルのための最初のマルチモーダルクローン検出手法であるSkillCloneを提案する。
SkillClone-Bench では、SkillClone は 0.939 の F1 を精度 0.952 で達成し、平坦な TF-IDF を上回っている。
SkillCloneを20Kスキルに適用すると、すべてのスキルの75%が258Kクローンペアで、40%が著者の境界を越えたことが分かる。
論文 参考訳(メタデータ) (2026-03-23T18:17:17Z) - SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.89812116484928]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。
SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。
キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。
自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (2026-02-13T07:06:06Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。