論文の概要: SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
- arxiv url: http://arxiv.org/abs/2602.12670v1
- Date: Fri, 13 Feb 2026 07:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.874026
- Title: SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
- Title(参考訳): SkillsBench: エージェントスキルがさまざまなタスクでどのように機能するかのベンチマーク
- Authors: Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee,
- Abstract要約: エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。
SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。
キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。
自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
- 参考スコア(独自算出の注目度): 61.89812116484928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent Skills are structured packages of procedural knowledge that augment LLM agents at inference time. Despite rapid adoption, there is no standard way to measure whether they actually help. We present SkillsBench, a benchmark of 86 tasks across 11 domains paired with curated Skills and deterministic verifiers. Each task is evaluated under three conditions: no Skills, curated Skills, and self-generated Skills. We test 7 agent-model configurations over 7,308 trajectories. Curated Skills raise average pass rate by 16.2 percentage points(pp), but effects vary widely by domain (+4.5pp for Software Engineering to +51.9pp for Healthcare) and 16 of 84 tasks show negative deltas. Self-generated Skills provide no benefit on average, showing that models cannot reliably author the procedural knowledge they benefit from consuming. Focused Skills with 2--3 modules outperform comprehensive documentation, and smaller models with Skills can match larger models without them.
- Abstract(参考訳): エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。
急速な採用にもかかわらず、彼らが実際に助けているかどうかを測る標準的な方法はない。
SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。
各タスクは、スキルなし、キュレートされたスキル、自己生成スキルの3つの条件で評価される。
7つのエージェントモデル構成を7,308個のトラジェクトリ上でテストする。
キュレートされたスキルは平均パスレートを16.2ポイント(pp)引き上げるが、効果はドメインによって大きく異なる(ソフトウェア工学では+4.5pp、ヘルスケアでは+51.9pp)。
自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
2--3モジュールによるフォーカスされたスキルは、包括的なドキュメントよりも優れており、スキルを持った小さなモデルは、それなしで大きなモデルにマッチすることができる。
関連論文リスト
- PolySkill: Learning Generalizable Skills Through Polymorphic Abstraction [20.687269802717893]
新しいフレームワークであるPolySkillを導入し、エージェントが一般化可能な構成スキルを学習できるようにする。
実験の結果,本手法はWebサイトにおけるスキルの再利用を1.7倍に改善することがわかった。
エージェントが自身の目標を特定して洗練させることで、PolySkillはエージェントのより良いカリキュラムを学ぶ能力を高める。
論文 参考訳(メタデータ) (2025-10-17T17:56:00Z) - SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills [48.05057798832005]
SkillWeaverは、再利用可能なスキルをAPIとして自律的に合成することで、Webエージェントの自己改善を可能にするスキル中心のフレームワークです。
新しいウェブサイトが与えられると、エージェントは自律的にスキルを発見し、実践のために実行し、実践経験を堅牢なAPIに蒸留する。
WebArenaと実世界のWebサイトでの実験は、SkillWeaverの有効性を示し、それぞれ31.8%と39.8%の相対的な成功率の向上を達成した。
論文 参考訳(メタデータ) (2025-04-09T17:51:50Z) - Inducing Programmatic Skills for Agentic Tasks [69.29902147942673]
本研究では,エージェントがプログラムベースのスキルをその場で誘導し,検証し,活用することで,エージェントの適応を可能にするエージェントスキル誘導(ASI)を提案する。
ASIは静的ベースラインエージェントとテキストスキルを23.5%、成功率11.3%で上回っている。
論文 参考訳(メタデータ) (2025-04-09T12:25:37Z) - Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z) - SkillMatch: Evaluating Self-supervised Learning of Skill Relatedness [11.083396379885478]
SkillMatchは、数百万の求人広告から専門知識をマイニングしたスキル関連性タスクのためのベンチマークです。
また,求人広告におけるスキル共起に基づくSentence-BERTモデルを適応するための,スケーラブルな自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T13:05:26Z) - SkillMimic: Learning Basketball Interaction Skills from Demonstrations [85.23012579911378]
我々は、エージェントがインタラクションスキルを学習する方法を根本的に変える統合データ駆動フレームワークであるSkillMimicを紹介した。
私たちの重要な洞察は、統合されたHOI模倣報酬は、HOIデータセットから多様な相互作用パターンの本質を効果的に捉えることができるということです。
評価のために,約35分間のバスケットボールスキルを含む2つのバスケットボールデータセットを収集,導入した。
論文 参考訳(メタデータ) (2024-08-12T15:19:04Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Residual Skill Policies: Learning an Adaptable Skill-based Action Space
for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。
本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。
我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-04T02:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。