論文の概要: SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills
- arxiv url: http://arxiv.org/abs/2605.24117v1
- Date: Fri, 22 May 2026 18:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.639591
- Title: SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills
- Title(参考訳): SkillEvolBench: エピソジックな経験から手続き的なスキルへの進化のベンチマーク
- Authors: Yingtie Lei, Zhongwei Wan, Jiankun Zhang, Samiul Alam, Zixuan Zhong, Peizhou Huang, Xin Wang, Jingxuan Zhang, Donghao Zhou, Yunta Hsieh, Zhihao Dou, Hui Shen, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、現実世界のタスクを解きながら豊富なエピソード軌道を蓄積する。
SkillEvolBenchは、経験の再利用からスキル形成まで、このステップを評価するための診断ベンチマークである。
現在のエージェントは、しばしばローカルに適応するが、堅牢な再利用可能なスキルを形成することは滅多にない。
- 参考スコア(独自算出の注目度): 31.23929961213889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents accumulate rich episodic trajectories while solving real-world tasks, but it remains unclear whether such experience can be distilled into reusable procedural skills. We introduce SkillEvolBench, a diagnostic benchmark for evaluating this step from experience reuse to skill formation. It contains 180 tasks across six real-world agent environments, organized into role-conditioned task families with shared latent procedures. Agents learn from acquisition tasks, update an external skill library using compacted trajectories and verifier feedback, and then face frozen deployment tasks testing context shift, adversarial shortcuts, and composition. By comparing self-generated and curated-start skill evolution against no-skill and raw-trajectory controls, SkillEvolBench separates procedural abstraction from base capability, curated prior knowledge, and direct reuse of episodic traces. Across ten model configurations and three agent harnesses, we find that current agents often adapt locally but rarely form robust reusable skills. Skill-based conditions can improve acquisition or replay, and individual models sometimes gain on specific deployment axes, but these gains are unstable under frozen deployment. Raw-trajectory reuse frequently outperforms distilled skills, suggesting that current abstraction procedures discard contextual and procedural cues that remain useful for future tasks. Capacity and cost analyses further show that writing more skills or larger Tier-3 resource libraries is not sufficient: additional updates can improve coverage while introducing episode-specific drift and procedural clutter. These findings position SkillEvolBench as a testbed for measuring when one-off experience becomes durable procedural knowledge rather than task-local memory.
- Abstract(参考訳): 大規模言語モデル (LLM) エージェントは, 実世界の課題を解決しながら, 豊富なエピソード軌道を蓄積するが, 再利用可能な手続き技術に応用できるかどうかは不明である。
SkillEvolBenchは、経験の再利用からスキル形成まで、このステップを評価するための診断ベンチマークである。
6つの現実世界のエージェント環境にまたがる180のタスクが含まれており、ロール条件のタスクファミリと共有遅延プロシージャで構成されている。
エージェントは、取得タスクから学び、コンパクトな軌跡と検証済みのフィードバックを使用して外部スキルライブラリを更新し、凍結されたデプロイメントタスクに直面して、コンテキストシフト、敵のショートカット、コンポジションをテストする。
SkillEvolBenchは、自己生成およびキュレートされたスキル進化を、非熟練および生の軌道制御と比較することによって、手続き的抽象化を基本能力から分離し、事前知識をキュレートし、エピソードトレースを直接再利用する。
10のモデル構成と3つのエージェントハーネスで、現在のエージェントはしばしば局所的に適応するが、堅牢な再利用可能なスキルを形成することは滅多にない。
スキルベースの条件は、取得やリプレイを改善することができ、個々のモデルが特定のデプロイメント軸で取得されることもあるが、これらはフリーズされたデプロイメントでは不安定である。
ロートラジェクトリーの再利用は蒸留技術を上回ることがしばしばあり、現在の抽象化手順は、将来のタスクに有用な文脈的および手続き的手がかりを捨てていることを示唆している。
キャパシティとコスト分析は、より多くのスキルやより大きなTier-3リソースライブラリを書くだけでは不十分であることを示している。
これらの結果から、SkillEvolBenchはタスクローカルメモリよりも、ワンオフ体験が永続的な手続き的知識になるかどうかを測定するためのテストベッドとして位置づけられた。
関連論文リスト
- From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills [46.76651106969111]
モデル生成スキルは平均的に有益であるが,非自明な負の伝達を示す。
モデルは強力な抽出器でありながら、弱い消費者、あるいはその逆もまた、モデルスケールやベースラインタスク強度とは無関係に、スキルユーティリティを持つことができる。
本研究は,これらの知見を,スキル抽出のガイドとなる具体的なエフェメタスキルに翻訳する。
論文 参考訳(メタデータ) (2026-05-22T17:59:12Z) - SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents [15.669318649782285]
我々は、統一されたプロトコルの下でスキル生成パイプラインを評価するためのベンチマークであるSkillGenBenchを紹介する。
ジェネレータは生のコーパスを受け取り、標準化されたスキルアーティファクトを生成し、固定ハーネスの下で実行される。
様々なスキルジェネレーション手法とバックボーンの実験は、かなりの性能変化を示している。
論文 参考訳(メタデータ) (2026-05-18T17:28:36Z) - Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。
SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。
SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:31:50Z) - XSkill: Continual Learning from Experience and Skills in Multimodal Agents [26.64381741359544]
XSkillはマルチモーダルエージェントの経験とスキルから継続的に学習するためのデュアルストリームフレームワークである。
XSkillは、視覚観察における知識抽出と検索の両方の基礎となる。
XSkillは、ツールのみのベースラインと学習ベースのベースラインの両方を一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2026-03-12T15:25:57Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Building Self-Evolving Agents via Experience-Driven Lifelong Learning: A Framework and Benchmark [57.59000694149105]
本稿では、自己進化エージェントを構築するためのフレームワークである、経験駆動型生涯学習(ELL)を紹介する。
ELLは、Experience Exploration、Long-term Memory、Skill Learning、Knowledge Internalizationの4つのコア原則に基づいて構築されている。
また、学生の総合的な大学旅行をシミュレートするELLのベンチマークデータセットであるStuLifeを紹介した。
論文 参考訳(メタデータ) (2025-08-26T13:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。