論文の概要: OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.23657v1
- Date: Fri, 22 May 2026 14:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.384469
- Title: OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents
- Title(参考訳): OpenSkillEval: LLMエージェントのオープンスキルエコシステムを自動監査する
- Authors: Jiahao Ying, Boxian Ai, Wei Tang, Siyuan Liu, Yixin Cao,
- Abstract要約: スキル強化エージェントシステムとスキル自体の自動評価フレームワークであるtextscOpenSkillEvalを提案する。
静的ベンチマークに頼る代わりに、textscOpenSkillEvalは、現実世界のアーティファクトの進化から現実的なタスクインスタンスを自動的に構築する。
600以上の動的に生成されたタスクインスタンスと30のオープンソーススキルを使用して、最先端のモデルとエージェントフレームワークを体系的に評価する。
- 参考スコア(独自算出の注目度): 15.598856888948093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skills, i.e., structured workflow instructions distilled for large language models (LLMs), are becoming an increasingly important mechanism for improving agent performance on real-world downstream tasks. However, as the open-source skill ecosystem rapidly expands, it remains unclear how different models and agent frameworks interact with skills, how to evaluate skill quality, and how users should select skills under practical cost-performance trade-offs. In this paper, we present \textsc{OpenSkillEval}, an automatic evaluation framework for both skill-augmented agent systems and the skills themselves. Instead of relying on static benchmarks, \textsc{OpenSkillEval} automatically constructs realistic task instances from evolving real-world artifacts across five categories of downstream applications: presentation generation, front-end web design, poster generation, data visualization, and report generation. It further collects and organizes community-contributed skills for controlled comparison under unified task settings. Using more than 600 dynamically generated task instances and 30 open-source skills, we conduct a systematic evaluation of state-of-the-art models and agent frameworks. Our results show that skill availability does not guarantee effective skill usage, that the benefit of skill augmentation depends strongly on both the underlying model and the agent framework, and that many publicly popular skills do not consistently outperform base agents without skills. These findings highlight the need for dynamic, task-grounded evaluation and provide practical insights into the design, selection, and deployment of skills for LLM agents. Additional cases and benchmark resources are available on the project website: https://yingjiahao14.github.io/OpenSkillEval-Web/.
- Abstract(参考訳): 大規模言語モデル(LLM)のために蒸留された構造化ワークフロー命令(Structured workflow instructions)は、現実世界の下流タスクにおいてエージェントのパフォーマンスを改善するための重要なメカニズムになりつつある。
しかし、オープンソースのスキルエコシステムが急速に拡大するにつれて、異なるモデルやエージェントフレームワークがスキルとどのように相互作用するか、スキルの品質をどのように評価するか、そしてユーザーが実用的なコストパフォーマンストレードオフの下でどのようにスキルを選択するべきかは、まだ不明である。
本稿では,スキル強化エージェントシステムとスキル自体の自動評価フレームワークであるtextsc{OpenSkillEval}について述べる。
静的ベンチマークに頼る代わりに、‘textsc{OpenSkillEval} は、プレゼンテーション生成、フロントエンドWebデザイン、ポスター生成、データ可視化、レポート生成という5つのカテゴリのダウンストリームアプリケーションの実世界のアーティファクトから、現実的なタスクインスタンスを自動的に構築する。
さらに、統合されたタスク設定の下で、制御された比較のためのコミュニティに分散したスキルを収集し、整理する。
600以上の動的に生成されたタスクインスタンスと30のオープンソーススキルを使用して、最先端のモデルとエージェントフレームワークを体系的に評価する。
以上の結果から,スキルの有効利用が保証されていないこと,スキル強化のメリットが基礎となるモデルとエージェントフレームワークの両方に強く依存していること,スキルのないベースエージェントを一貫して上回る技術が広く普及していること,などが示唆された。
これらの知見は, LLMエージェントの設計, 選定, 展開に関する実践的な知見を提供するために, 動的, タスクグラウンド評価の必要性を強調した。
追加のケースとベンチマークリソースはプロジェクトのWebサイト(https://yingjiahao14.github.io/OpenSkillEval-Web/)で入手できる。
関連論文リスト
- From Context to Skills: Can Language Models Learn from Context Skillfully? [56.5857437218136]
Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
論文 参考訳(メタデータ) (2026-04-30T09:53:15Z) - SkillX: Automatically Constructing Skill Knowledge Bases for Agents [27.56549031749266]
SkillXは、プラグアンドプレイのスキル知識ベースを構築するための、完全に自動化されたフレームワークである。
3つのシナジスティックなイノベーションに基づいて構築された、完全に自動化されたパイプラインを通じて運用される。
実験の結果、SkillKBは、より弱いベースエージェントにプラグインされた場合、タスクの成功と実行効率を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-06T16:09:33Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z) - SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。
私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文 参考訳(メタデータ) (2026-02-26T14:24:02Z) - SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。
本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。
我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文 参考訳(メタデータ) (2026-02-24T13:11:38Z) - Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward [5.124116559484265]
モノリシックな言語モデルからモジュール化された、スキルを持ったエージェントへの移行は、大規模言語モデル(LLM)の実際のデプロイ方法に決定的な変化をもたらす。
すべての手続き的知識をモデルウェイト内にエンコードするのではなく、エージェントスキルは、再トレーニングせずに動的機能拡張を可能にする。
この調査は、エージェントスキルのランドスケープを包括的に扱うもので、ここ数ヶ月で急速に進化してきた。
論文 参考訳(メタデータ) (2026-02-12T21:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。