論文の概要: SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents
- arxiv url: http://arxiv.org/abs/2604.17308v1
- Date: Sun, 19 Apr 2026 07:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.454311
- Title: SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents
- Title(参考訳): SkillFlow: 自律エージェントのための生涯スキル発見と進化のベンチマーク
- Authors: Ziao Zhang, Kou Shi, Shiting Huang, Avery Nie, Yu Zeng, Yiming Zhao, Zhen Fang, Qishen Su, Haibo Qiu, Wei Yang, Qingnan Ren, Shun Zou, Wenxuan Huang, Lin Chen, Zehui Chen, Feng Zhao,
- Abstract要約: SkillFlowは、20家族にわたる166のタスクのベンチマークで、各家族内のタスク構成がドメインに依存しない実行フロー(DAEF)に従う。
エージェントはAgentic Lifelong Learningプロトコルで評価され、スキルなしで開始し、各ファミリー内でタスクをシーケンシャルに解決し、トラジェクトリおよびルーリック駆動のスキルパッチを通じてレッスンを外部化し、更新されたライブラリを前進させる。
- 参考スコア(独自算出の注目度): 33.117459452689964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the capability frontier of autonomous agents continues to expand, they are increasingly able to complete specialized tasks through plug-and-play external skills. Yet current benchmarks mostly test whether models can use provided skills, leaving open whether they can discover skills from experience, repair them after failure, and maintain a coherent library over time. We introduce SkillFlow, a benchmark of 166 tasks across 20 families in which task construction within each family follows a Domain-Agnostic Execution Flow (DAEF) that defines an agent workflow framework, allowing these tasks to share a consistent workflow. Agents are evaluated under an Agentic Lifelong Learning protocol in which they begin without skills, solve tasks sequentially within each family, externalize lessons through trajectory- and rubric-driven skill patches, and carry the updated library forward. Experiments reveal a substantial capability gap. For Claude Opus 4.6, lifelong skill evolution improves task success from 62.65% to 71.08% (+8.43 points). However, high skill usage does not necessarily imply high utility: Kimi K2.5 gains only +0.60 points despite 66.87% skill usage, while Qwen-Coder-Next reaches only a 44.58% task completion rate and still regresses relative to the vanilla setting. SkillFlow contributes a structured testbed for this direction and an in-depth empirical analysis of skill discovery, patching, transfer, and their failure modes under lifelong evaluation.
- Abstract(参考訳): 自律エージェントの能力のフロンティアが拡大し続ければ、外部スキルをプラグ&プレイすることで、専門的なタスクを完了できるようになる。
しかし、現在のベンチマークは、提供されたスキルが使えるかどうかを主にテストし、経験からスキルを発見し、失敗後に修復し、一貫性のあるライブラリを経たままにしておく。
SkillFlowは、20ファミリーにわたる166タスクのベンチマークで、各ファミリー内のタスク構成が、エージェントワークフローフレームワークを定義するDomain-Agnostic Execution Flow (DAEF)に従うことにより、これらのタスクが一貫したワークフローを共有することができる。
エージェントはAgentic Lifelong Learningプロトコルで評価され、スキルなしで開始し、各ファミリー内でタスクをシーケンシャルに解決し、トラジェクトリおよびルーリック駆動のスキルパッチを通じてレッスンを外部化し、更新されたライブラリを前進させる。
実験によって、かなりの能力のギャップが明らかになる。
クロード・オプス4.6では、生涯のスキル進化が62.65%から71.08%(+8.43ポイント)に改善する。
K2.5は66.87%のスキル使用にもかかわらず+0.60ポイントしか獲得していないが、Qwen-Coder-Nextは44.58%のタスク完了率しか達成していない。
SkillFlowは、この方向のための構造化テストベッドと、生涯にわたる評価の下で、スキル発見、パッチ適用、転送、障害モードの詳細な経験的分析に貢献する。
関連論文リスト
- How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings [29.3744517703302]
本研究は,段階的に挑戦的な現実的な環境下でのスキルユーティリティの総合的研究である。
その結果、設定がよりリアルになるにつれて、パフォーマンスは一貫して低下することがわかった。
クエリ固有の改善は、初期スキルが合理的な妥当性と品質を持つ場合に、性能を著しく回復することを示す。
論文 参考訳(メタデータ) (2026-04-06T00:10:30Z) - SKILLFOUNDRY: Building Self-Evolving Agent Skill Libraries from Heterogeneous Scientific Resources [5.7282243774488295]
我々は、リソースを検証されたエージェントスキルに変換する自己進化型フレームワークであるSkillFoundryを紹介する。
SkillFoundryは,比較的新規で,内部的に有効なスキルライブラリであることを示す。
また,SkillFoundryは,具体的な科学的目的の要求に応じて,新たなタスク固有のスキルを設計できることを示す。
論文 参考訳(メタデータ) (2026-04-05T05:02:18Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - EvoSkill: Automated Skill Discovery for Multi-Agent Systems [6.319876096746374]
エージェントスキルを自動的に発見・洗練する自己進化型フレームワークである textbfEvoSkill を紹介する。
EvoSkillは実行障害を分析し、新しいスキルや既存のスキルへの編集を提案し、それらを構造化された再利用可能なスキルフォルダに実体化する。
われわれはEvoSkillを米国財務データの根拠となる推論ベンチマークであるOfficeQAと、ノイズの多い検索ベンチマークであるSealQAの2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-03T09:07:22Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z) - SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。
私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文 参考訳(メタデータ) (2026-02-26T14:24:02Z) - SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。
本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。
我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文 参考訳(メタデータ) (2026-02-24T13:11:38Z) - SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.89812116484928]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。
SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。
キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。
自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (2026-02-13T07:06:06Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。