論文の概要: SkillComposer: Learning to Evolve Agent Skills for Specification and Generalization
- arxiv url: http://arxiv.org/abs/2606.06079v1
- Date: Thu, 04 Jun 2026 12:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.780665
- Title: SkillComposer: Learning to Evolve Agent Skills for Specification and Generalization
- Title(参考訳): SkillComposer: 仕様と一般化のためのエージェントスキルの進化を学ぶ
- Authors: Qi Zhang, Zhaopeng Feng, Xiaonan Shi, Xiaomeng Hu, Chu Liu, Pengjun Xie, Xiaobin Wang, Jieping Ye, Bryan Hooi, Haobo Wang, Junbo Zhao,
- Abstract要約: エージェントスキルは、エージェントの推論とアクションをガイドする再利用可能な戦略である。
現在の技術構築手法は、問題を一発抽出として扱う。
本稿では,スキル構築を3つの学習可能な操作に分解するフレームワークであるSkillComposerを紹介する。
- 参考スコア(独自算出の注目度): 99.18305770138677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent skills, which consist of reusable strategies that guide agent reasoning and action, have shown strong potential for improving model capability at inference time. However, current skill construction methods treat the problem as one-shot extraction, overlooking a fundamental tension: a skill tailored to the specific task fails to transfer, while the abstracted skill often provides insufficient guidance. We attribute this fragility to the absence of explicit mechanisms for skill specification and generalization. To address this gap, we introduce SkillComposer, a framework that decomposes skill construction into three learnable operations: create, improve, and merge. Trained via systematic rejection sampling recipe, SkillComposer enables language models to self-evolve skills at inference time and supports three deployment modes: offline for building generalized libraries, online for task-specific refinement, and hybrid for combining both. Comprehensive experiments on $τ^2$-Bench, LiveCodeBench v6, and AppWorld show that SkillComposer consistently outperforms baselines. Our SkillComposer-4B improves a 27B executor by up to +4.5 on agent tasks and +3.4 on code tasks, while generalizing across domains and task types unseen during training. Analysis reveals that merge and improve address orthogonal quality dimensions and that skill composition is a transferable meta-ability, providing a practical recipe for skill-augmented inference.
- Abstract(参考訳): エージェントスキルは、エージェント推論とアクションをガイドする再利用可能な戦略で構成されており、推論時にモデル能力を改善する強力な可能性を示している。
しかし、現在の技術構築手法では、問題を一発抽出として扱い、基本的緊張を乗り越えて、特定のタスクに適したスキルが転送に失敗する一方で、抽象化されたスキルが不十分なガイダンスを提供することが多い。
この脆弱性は、スキル仕様と一般化のための明確なメカニズムが欠如しているためである。
このギャップに対処するために、スキル構築を3つの学習可能な操作(作成、改善、マージ)に分解するフレームワークであるSkillComposerを紹介します。
SkillComposerは、体系的な拒絶サンプリングレシピを通じてトレーニングされ、言語モデルが推論時にスキルを自己開発し、3つのデプロイメントモードをサポートする。
τ^2$-Bench、LiveCodeBench v6、AppWorldでの包括的な実験は、SkillComposerが一貫してベースラインを上回っていることを示している。
SkillComposer-4Bは、エージェントタスクで最大4.5、コードタスクで+3.4、トレーニング中に見えないドメインやタスクタイプで一般化することで、27Bエグゼキュータを改善しています。
分析により, 直交品質次元のマージと改善が図られ, スキル構成は伝達可能なメタビリティであり, スキル拡張推論の実践的レシピを提供する。
関連論文リスト
- SkillPyramid: A Hierarchical Skill Consolidation Framework for Self-Evolving Agents [38.2600862878199]
最近のAIエージェントは、複雑なタスクを解決するためのスキルを柔軟に実行できますが、その長期的な改善は、体系的なスキル構築、蓄積、転送の欠如によって制約されます。
SkillPyramidは,タスクのより広範な一般化のために既存のスキル体験を再利用するスキル統合フレームワークである。
SkillPyramidは平均報酬を38.0%、実行手順を27.7%削減する。
論文 参考訳(メタデータ) (2026-06-02T14:14:27Z) - SkillSmith: Co-Evolving Skills and Tools for Self-Improving Agent Systems [36.96247516261787]
SkillSmithは、シナジー対応のスキルツールの共同進化フレームワークである。
スキル進化が再利用可能な機能ギャップを特定すると、ツールをラップ、編集、構成、分割、または廃止することが可能になります。
失敗の署名、因果帰属、治療を含むアンチパターンを記録し、既知の誤りを繰り返す診断と拒否提案を加速させる。
論文 参考訳(メタデータ) (2026-05-31T16:01:19Z) - Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - From Context to Skills: Can Language Models Learn from Context Skillfully? [56.5857437218136]
Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
論文 参考訳(メタデータ) (2026-04-30T09:53:15Z) - SkillX: Automatically Constructing Skill Knowledge Bases for Agents [27.56549031749266]
SkillXは、プラグアンドプレイのスキル知識ベースを構築するための、完全に自動化されたフレームワークである。
3つのシナジスティックなイノベーションに基づいて構築された、完全に自動化されたパイプラインを通じて運用される。
実験の結果、SkillKBは、より弱いベースエージェントにプラグインされた場合、タスクの成功と実行効率を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-06T16:09:33Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation [32.86306309089796]
Uni-Skillはスキル中心のフレームワークで、スキル対応のプランニングをサポートする。
既存のスキルが不十分な場合、新しいスキル実装に対するUni-Skillリクエスト。
Skillは、大規模な非構造化ロボットビデオから派生したVerbNetにインスパイアされたリポジトリだ。
論文 参考訳(メタデータ) (2026-03-03T05:49:37Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。