論文の概要: EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification
- arxiv url: http://arxiv.org/abs/2604.01687v1
- Date: Thu, 02 Apr 2026 06:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.569818
- Title: EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification
- Title(参考訳): EvoSkills: 共進化検証による自己進化型エージェントスキル
- Authors: Hanrong Zhang, Shicheng Fan, Henry Peng Zou, Yankai Chen, Zhenting Wang, Jiayu Zhou, Chengze Li, Wei-Chieh Huang, Yifei Yao, Kening Zheng, Xue Liu, Xiaoxiao Li, Philip S. Yu,
- Abstract要約: Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
- 参考スコア(独自算出の注目度): 85.3692584167951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anthropic proposes the concept of skills for LLM agents to tackle multi-step professional tasks that simple tool invocations cannot address. A tool is a single, self-contained function, whereas a skill is a structured bundle of interdependent multi-file artifacts. Currently, skill generation is not only label-intensive due to manual authoring, but also may suffer from human--machine cognitive misalignment, which can lead to degraded agent performance, as evidenced by evaluations on SkillsBench. Therefore, we aim to enable agents to autonomously generate skills. However, existing self-evolving methods designed for tools cannot be directly applied to skills due to their increased complexity. To address these issues, we propose EvoSkills, a self-evolving skills framework that enables agents to autonomously construct complex, multi-file skill packages. Specifically, EvoSkills couples a Skill Generator that iteratively refines skills with a Surrogate Verifier that co-evolves to provide informative and actionable feedback without access to ground-truth test content. On SkillsBench, EvoSkills achieves the highest pass rate among five baselines on both Claude Code and Codex, and also exhibits strong generalization capabilities to six additional LLMs.
- Abstract(参考訳): Anthropicは、シンプルなツール呼び出しが対処できない多段階のプロフェッショナルタスクに取り組むために、LLMエージェントのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
現在、スキル生成は手動のオーサリングによってラベル集約化されているだけでなく、スキルズベンチの評価で証明されているように、人間の機械的認知的不適応に悩まされている可能性がある。
そこで我々は,エージェントが自律的にスキルを創出できるようにすることを目標としている。
しかし、ツール用に設計された既存の自己進化手法は、複雑さが増すため、スキルに直接適用することはできない。
これらの問題に対処するために,エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークであるEvoSkillsを提案する。
具体的には、EvoSkillsはスキルジェネレータを組み合わせ、Surrogate Verifierでスキルを反復的に洗練させる。
SkillsBenchでは、EvoSkillsはClaude CodeとCodexの5つのベースラインの中で最高パス率を獲得し、さらに6つのLLMに強力な一般化能力を示す。
関連論文リスト
- SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation [32.86306309089796]
Uni-Skillはスキル中心のフレームワークで、スキル対応のプランニングをサポートする。
既存のスキルが不十分な場合、新しいスキル実装に対するUni-Skillリクエスト。
Skillは、大規模な非構造化ロボットビデオから派生したVerbNetにインスパイアされたリポジトリだ。
論文 参考訳(メタデータ) (2026-03-03T05:49:37Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z) - SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。
私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文 参考訳(メタデータ) (2026-02-26T14:24:02Z) - Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward [5.124116559484265]
モノリシックな言語モデルからモジュール化された、スキルを持ったエージェントへの移行は、大規模言語モデル(LLM)の実際のデプロイ方法に決定的な変化をもたらす。
すべての手続き的知識をモデルウェイト内にエンコードするのではなく、エージェントスキルは、再トレーニングせずに動的機能拡張を可能にする。
この調査は、エージェントスキルのランドスケープを包括的に扱うもので、ここ数ヶ月で急速に進化してきた。
論文 参考訳(メタデータ) (2026-02-12T21:33:25Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。