論文の概要: Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.06130v1
- Date: Thu, 07 May 2026 12:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.773102
- Title: Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
- Title(参考訳): Skill1:強化学習によるスキル強化エージェントの統一進化
- Authors: Yaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang,
- Abstract要約: 永続的なスキルライブラリにより、言語モデルエージェントはタスク間で成功した戦略を再利用できる。
既存の手法は、これらの機能を分離または別々の報酬源で最適化し、部分的かつ矛盾する進化をもたらす。
Skill1は,共有タスクアウトカム目標に向けて,スキル選択,利用,蒸留を共同開発するための単一の政策を訓練するフレームワークである。
- 参考スコア(独自算出の注目度): 32.51284576274437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.
- Abstract(参考訳): 永続的なスキルライブラリにより、言語モデルエージェントはタスク間で成功した戦略を再利用できる。
このようなライブラリを維持するには、3つの結合機能が必要です。
エージェントは、関連するスキルを選択し、実行中に利用し、経験から新たなスキルを蒸留する。
既存の手法は、これらの機能を分離または別々の報酬源で最適化し、部分的かつ矛盾する進化をもたらす。
Skill1は,共有タスクアウトカム目標に向けて,スキル選択,利用,蒸留を共同開発するための単一の政策を訓練するフレームワークである。
このポリシーは、スキルライブラリを検索するためのクエリを生成し、候補を選別し、そのタスクを解決し、軌道から新しいスキルを蒸留する。
すべての学習は単一のタスクアウトカム信号から導かれる。
低周波の傾向は選択を信用し、高周波の変動は蒸留を信用する。
ALFWorldとWebShopの実験によると、Skill1はスキルベースと強化学習のベースラインよりも優れている。
トレーニングのダイナミクスは、3つの能力の共進化を確認し、アブレーションは、クレジット信号の除去が進化を劣化させることを示している。
関連論文リスト
- SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。
SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。
SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:31:50Z) - From Context to Skills: Can Language Models Learn from Context Skillfully? [56.5857437218136]
Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
論文 参考訳(メタデータ) (2026-04-30T09:53:15Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning [17.98540130851038]
ARISE(Agent Reasoning via Intrinsic Skill Evolution)は階層的な強化学習フレームワークである。
共有ポリシを使用して、ハイレベルなスキルを管理し、低レベルなレスポンスを生成する。
階層的な報酬設計は、推論能力と図書館品質の共進化を導く。
論文 参考訳(メタデータ) (2026-03-17T02:03:17Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-18T21:58:19Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。