論文の概要: SkillTester: Benchmarking Utility and Security of Agent Skills
- arxiv url: http://arxiv.org/abs/2603.28815v1
- Date: Sat, 28 Mar 2026 14:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.550071
- Title: SkillTester: Benchmarking Utility and Security of Agent Skills
- Title(参考訳): SkillTester: エージェントスキルの実用性とセキュリティのベンチマーク
- Authors: Leye Wang, Zixing Wang, Anjie Xu,
- Abstract要約: SkillTesterはエージェントスキルの実用性とセキュリティを評価するツールである。
このフレームワークは、生の実行アーティファクトをユーティリティスコア、セキュリティスコア、および3レベルのセキュリティステータスラベルに正規化する。
- 参考スコア(独自算出の注目度): 9.00528013048031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents SkillTester, a tool for evaluating the utility and security of agent skills. Its evaluation framework combines paired baseline and with-skill execution conditions with a separate security probe suite. Grounded in a comparative utility principle and a user-facing simplicity principle, the framework normalizes raw execution artifacts into a utility score, a security score, and a three-level security status label. More broadly, it can be understood as a comparative quality-assurance harness for agent skills in an agent-first world. The public service is deployed at https://skilltester.ai, and the broader project is maintained at https://github.com/skilltester-ai/skilltester.
- Abstract(参考訳): このテクニカルレポートでは、エージェントスキルの実用性とセキュリティを評価するツールであるSkillTesterを紹介している。
その評価フレームワークは、ペア化されたベースラインとスキルを持った実行条件を、別々のセキュリティプローブスイートと組み合わせている。
比較ユーティリティの原則とユーザ対応のシンプルさの原則に基づいて、このフレームワークは生の実行成果物をユーティリティスコア、セキュリティスコア、および3レベルのセキュリティステータスラベルに正規化している。
より広義には、エージェントファーストの世界におけるエージェントスキルの比較品質保証ハーネスとして理解することができる。
パブリックサービスはhttps://skilltester.aiにデプロイされ、より広範なプロジェクトはhttps://github.com/skilltester-ai/skilltesterでメンテナンスされている。
関連論文リスト
- Who Tests the Testers? Systematic Enumeration and Coverage Audit of LLM Agent Tool Call Safety [32.40159096400358]
大規模言語モデル(LLM)エージェントは、テキスト生成のみではなく、ツールコールに安全を集中させる外部ツールを通じて、ますます機能するようになっている。
最近のベンチマークでは、さまざまな環境やリスクカテゴリにまたがるエージェントを評価しているが、根本的な疑問は解決されていない。
まず、有効なツールコールと多様なユーザシナリオを列挙して、テストケースを体系的に生成する列挙子。次に、非セマンティックで定量的な尺度であるルール耐性を導入する。
論文 参考訳(メタデータ) (2026-03-18T20:06:47Z) - SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering? [27.583012125198568]
SWE-Skills-Benchは、現実のソフトウェア工学におけるエージェントスキルの限界効用を分離する最初の要件駆動ベンチマークである。
49の公開SWEスキルと、特定のコミットにピン留めされた本物のGitHubリポジトリと、明確な受け入れ基準を持つ要件ドキュメントをペアリングする。
以上の結果から,スキルインジェクションのメリットは,迅速な採用よりもはるかに限定的であることが示唆された。
論文 参考訳(メタデータ) (2026-03-16T15:16:31Z) - SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。
本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。
我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文 参考訳(メタデータ) (2026-02-24T13:11:38Z) - A Trajectory-Based Safety Audit of Clawdbot (OpenClaw) [77.1549110891026]
6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。
我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断とヒューマンレビューの両方を使用して安全性を評価する。
論文 参考訳(メタデータ) (2026-02-16T00:33:02Z) - CUA-Skill: Develop Skills for Computer Using Agent [48.87870942314034]
コンピュータを利用したエージェントスキルベースであるCUA-Skillを導入し,人間のコンピュータ利用知識をスキルとして符号化する。
我々は、動的スキル検索、引数のインスタンス化、メモリ認識障害回復をサポートする、エンドツーエンドのコンピュータ利用エージェントであるCUA-Skill Agentを構築した。
その結果、CUA-Skillは、エンドツーエンドのベンチマークで実行の成功率と堅牢性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-28T23:38:25Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - Shell or Nothing: Real-World Benchmarks and Memory-Activated Agents for Automated Penetration Testing [23.554239007767276]
本稿では,世界初の実世界のエージェント指向ペンテストベンチマークTermiBenchを紹介する。
本稿では,多エージェント浸透試験フレームワークTermiAgentを提案する。
評価において,本研究は最先端のエージェントより優れ,より強力な浸透試験能力を示す。
論文 参考訳(メタデータ) (2025-09-11T07:30:44Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。