論文の概要: SkillOpt: Executive Strategy for Self-Evolving Agent Skills
- arxiv url: http://arxiv.org/abs/2605.23904v2
- Date: Mon, 25 May 2026 17:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:38.061842
- Title: SkillOpt: Executive Strategy for Self-Evolving Agent Skills
- Title(参考訳): SkillOpt: セルフ進化エージェントスキルのエグゼクティブ戦略
- Authors: Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo,
- Abstract要約: SkillOptはエージェントスキルのためのコントロール可能なテキストスペースである。
別々のモデルでは、スコアの付いたロールアウトを1つのスキルドキュメントのバウンダリされた追加/削除/リプレースに切り替える。
学習速度の予算、拒否編集バッファ、エポックワイド/メタアップデートは、スキルトレーニングを安定させる。
- 参考スコア(独自算出の注目度): 39.94802218531371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses (direct chat, Codex, Claude Code), SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code. Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization. Code: https://aka.ms/skillopt
- Abstract(参考訳): 現在のエージェントスキルは手作り、ワンショット、あるいはゆるやかに制御された自己修正によって進化しており、いずれもスキルのディープラーニングオプティマイザのように振る舞うものではなく、フィードバックの開始点よりも確実に改善するものではない。
代わりに、このスキルは凍ったエージェントの外部状態として訓練されるべきであり、重量空間の最適化が再現可能であるのと同じ規律である。
SkillOptは、私たちの知る限り、エージェントスキルのための最初の体系的な制御可能なテキストスペースオプティマイザである。 分離されたオプティマイザモデルは、収集したロールアウトを単一のスキルドキュメント上の有界な追加/削除/置換編集に切り替えます。
テキスト学習率の予算、拒否編集バッファ、エポックワイド/メタアップデートは、デプロイ時に推論時のモデルコールをゼロにしながら、スキルトレーニングを安定させる。
6つのベンチマーク、7つのターゲットモデル、3つの実行ハーネス(ダイレクトチャット、Codex、Claude Code)、SkillOptは、評価された52のすべてのセル(モデル、ベンチマーク、ハーネス)に最善か結びついており、人間、ワンショットLLM、Trace2Skill、TextGrad、GEPA、EvoSkillスキルのすべてのセル競合を破っている。
GPT-5.5では、直接チャットでは+23.5ポイント、Codexエージェントループでは+24.8、Claude Codeでは+19.1ポイント、平均ノスキル精度を+19.1アップする。
さらにトランスファー実験では、最適化されたスキルアーティファクトが、モデルスケール、CodexとClaude Codeの実行環境、さらに最適化することなく近くの数学ベンチマークの間を移動するときに価値を保っていることを示している。
コード:https://aka.ms/skillopt
関連論文リスト
- SkillEvolver: Skill Learning as a Meta-Skill [46.52001686198623]
オンラインスキル学習のための軽量なプラグアンドプレイソリューションである textbfSkillEvolver を提案する。
SkillEvolverの学習対象は、モデルの重みではなく、スキルの散文とコードである。
微量蒸留とは異なり、メタスキルは学習スキルの展開後にのみ洗練される。
論文 参考訳(メタデータ) (2026-05-11T12:58:25Z) - Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - SkillGen: Verified Inference-Time Agent Skill Synthesis [60.927977774369516]
SkillGenは、ベースエージェントによって生成されたトラジェクトリから単一の監査可能なスキルを合成するフレームワークである。
再利用可能な成功パターン、繰り返し発生する障害モード、そして近くの成功に現れるが失敗に欠ける行動を特定する。
SkillGenの重要な特徴は、エージェントスキルを、全体的なパフォーマンスに対するスキルのネット効果を実証的に検証するための介入としてモデル化することです。
論文 参考訳(メタデータ) (2026-05-09T19:24:11Z) - SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents [6.293920920196533]
SkillLensは階層的なスキル進化フレームワークで、スキルをポリシー、戦略、手順、プリミティブの4層グラフにまとめる。
セマンティックなスキルシードを検索し、スキルグラフの次数補正されたランダムウォークを通じて拡張し、各訪問したユニットが受け入れられ、分解され、書き直され、スキップされるかどうかを検証器を使って決定する。
MuLocbenchとALFWorld全体で、SkillLensは、強いスキルベースのベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-08T18:48:04Z) - BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning [34.60596020541521]
我々はBadSkillを紹介します。BadSkillは、モデル・イン・スキル脅威サーフェスをターゲットとするバックドア攻撃の定式化です。
BadSkillでは、敵が隠れペイロードをアクティベートするために、組み込まれたモデルがバックドアで調整された、一見良心的なスキルを公開している。
ベンチマークは8つのトリガータスクと5つの非トリガー制御スキルを含む13のスキルにまたがっており、主な評価セットは571の負のクラスクエリと396のトリガー整列クエリである。
BadSkillは8つのトリガースキルの平均攻撃成功率(ASR)を99.5%まで達成し、負のクラスのクエリに対して強い良識的な精度を維持している。
論文 参考訳(メタデータ) (2026-04-10T14:48:29Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - EffiSkill: Agent Skill Based Automated Code Efficiency Optimization [18.68243664364758]
EffiSkillは、LCMベースのエージェントのためのポータブルな最適化ツールボックスを構築する、コード効率最適化のためのフレームワークである。
EffiSkillは2段階の設計を採用しており、Stage IはOperatorとMeta Skillsを大規模で遅いプログラムペアからマイニングし、スキルライブラリを構築する。
ステージIIはこのライブラリを、実行不要の診断、スキル検索、計画構成、候補生成を通じて、未確認プログラムに適用する。
論文 参考訳(メタデータ) (2026-03-29T20:09:57Z) - MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild [74.7263562191605]
大規模言語モデル(LLM)エージェントは、複雑なタスクにますます使われている。
既存の方法は、知識を蒸留せずに生の軌跡を保存するか、静的なスキルライブラリを維持するか、または再訓練のために破壊的なダウンタイムを必要とする。
本稿では,基本的なLCMポリシと再利用可能な行動スキルのライブラリを共同で進化させるメタ学習フレームワークであるMetaClawを紹介する。
論文 参考訳(メタデータ) (2026-03-17T22:30:30Z) - EvoSkill: Automated Skill Discovery for Multi-Agent Systems [6.319876096746374]
エージェントスキルを自動的に発見・洗練する自己進化型フレームワークである textbfEvoSkill を紹介する。
EvoSkillは実行障害を分析し、新しいスキルや既存のスキルへの編集を提案し、それらを構造化された再利用可能なスキルフォルダに実体化する。
われわれはEvoSkillを米国財務データの根拠となる推論ベンチマークであるOfficeQAと、ノイズの多い検索ベンチマークであるSealQAの2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-03T09:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。