論文の概要: CODESKILL: Learning Self-Evolving Skills for Coding Agents
- arxiv url: http://arxiv.org/abs/2605.25430v1
- Date: Mon, 25 May 2026 05:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.29616
- Title: CODESKILL: Learning Self-Evolving Skills for Coding Agents
- Title(参考訳): CODESKILL: コーディングエージェントの自己進化スキルを学ぶ
- Authors: Yanzhou Li, Yiran Zhang, Xiaoyu Zhang, Xiaoxia Liu, Yang Liu,
- Abstract要約: コーディングエージェントは、ソフトウェアエンジニアリングタスクを解決しながら、豊富な軌道を生成する。
エージェントの自己進化を可能にするために、これらの軌道は、体験をコンパクトにエンコードして将来の行動を導く再利用可能な手続きスキルに蒸留することができる。
CODESKILLは,学習可能な管理方針として,スキル抽出とスキルバンクのメンテナンスを再構築するLLMベースのフレームワークである。
- 参考スコア(独自算出の注目度): 13.599750520978988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coding agents produce rich trajectories while solving software-engineering tasks. To enable agent self-evolution, these trajectories can be distilled into reusable procedural skills that compactly encode experience to guide future behavior. However, existing skill construction and maintenance methods often rely on fixed prompts and heuristic update rules, leaving it unclear how knowledge should be selected, abstracted, and maintained to best serve downstream agents. We propose CODESKILL, an LLM-based framework that reformulates skill extraction and skill-bank maintenance as a learnable management policy. CODESKILL extracts multi-granularity procedural skills from coding-agent trajectories, evolves skills with new experience, and maintains a compact skill bank for future task solving. We train CODESKILL with reinforcement learning, using a hybrid reward that combines dense rubric-based skill-quality feedback with sparse verifiable execution feedback from the frozen downstream agent. Experiments on EnvBench, SWE-Bench Verified, and Terminal-Bench 2 show that CODESKILL improves average pass rate by 9.69 over the no-skill baseline and by 4.01 over the strongest prompt-based or memory baseline, while maintaining the skill bank at a stable size during iterative construction.
- Abstract(参考訳): コーディングエージェントは、ソフトウェアエンジニアリングタスクを解決しながら、豊富な軌道を生成する。
エージェントの自己進化を可能にするために、これらの軌道は、体験をコンパクトにエンコードして将来の行動を導く再利用可能な手続きスキルに蒸留することができる。
しかし、既存のスキル構築とメンテナンスの方法は、しばしば固定されたプロンプトとヒューリスティックな更新ルールに依存しており、どのように知識を選択し、抽象化し、下流のエージェントに最適なサービスを提供していくべきかははっきりしないままである。
CODESKILLは,学習可能な管理方針として,スキル抽出とスキルバンクのメンテナンスを再構築するLLMベースのフレームワークである。
CODESKILLは、コーディングエージェント軌道から多粒性手続き的スキルを抽出し、新しい経験でスキルを進化させ、将来の課題解決のためのコンパクトなスキルバンクを維持する。
我々は、濃密なルーリックベースのスキル品質フィードバックと、凍結下流エージェントからのスパース検証可能な実行フィードバックを組み合わせたハイブリッド報酬を用いて、強化学習でCODESKILLを訓練する。
EnvBench, SWE-Bench Verified, Terminal-Bench 2の実験では、CODESKILLはノスキルベースラインで平均パスレートを9.69倍、最強のプロンプトベースまたはメモリベースラインで4.01倍改善し、反復的な建設中にスキルバンクを安定的に維持することを示した。
関連論文リスト
- SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills [31.23929961213889]
大規模言語モデル(LLM)エージェントは、現実世界のタスクを解きながら豊富なエピソード軌道を蓄積する。
SkillEvolBenchは、経験の再利用からスキル形成まで、このステップを評価するための診断ベンチマークである。
現在のエージェントは、しばしばローカルに適応するが、堅牢な再利用可能なスキルを形成することは滅多にない。
論文 参考訳(メタデータ) (2026-05-22T18:23:31Z) - Harnessing LLM Agents with Skill Programs [58.356514745548026]
HASPは、実行可能なプログラム関数(PF)にスキルをアップグレードする新しいフレームワークです。
PFは障害が発生しやすい状態を起動し、次のアクションを変更したり、修正コンテキストを注入する実行可能なガードレールとして機能する。
HASPは、Web検索、数学推論、コーディングタスクにおいて、トレーニング不要とトレーニングベースの両方の手法と比較して、大幅に向上している。
論文 参考訳(メタデータ) (2026-05-18T01:35:11Z) - Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents [6.293920920196533]
SkillLensは階層的なスキル進化フレームワークで、スキルをポリシー、戦略、手順、プリミティブの4層グラフにまとめる。
セマンティックなスキルシードを検索し、スキルグラフの次数補正されたランダムウォークを通じて拡張し、各訪問したユニットが受け入れられ、分解され、書き直され、スキップされるかどうかを検証器を使って決定する。
MuLocbenchとALFWorld全体で、SkillLensは、強いスキルベースのベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-08T18:48:04Z) - SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。
SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。
SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:31:50Z) - SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks [32.195367070060904]
SkillLearnBenchは連続的なスキル学習手法を評価するための最初のベンチマークである。
継続的学習は、明確で再利用可能なタスクを改善するが、オープンなタスクでは苦労する。
我々のデータとコードはhttps://github.com/cscmu/SkillLearnBench.comでオープンソース化されています。
論文 参考訳(メタデータ) (2026-04-22T01:07:37Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-18T21:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。