論文の概要: HarmfulSkillBench: How Do Harmful Skills Weaponize Your Agents?
- arxiv url: http://arxiv.org/abs/2604.15415v1
- Date: Thu, 16 Apr 2026 17:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.597202
- Title: HarmfulSkillBench: How Do Harmful Skills Weaponize Your Agents?
- Title(参考訳): HarmfulSkillBench:Hummful Skillsはどうやってエージェントを弱体化させるのか?
- Authors: Yukun Jiang, Yage Zhang, Michael Backes, Xinyue Shen, Yang Zhang,
- Abstract要約: エージェント生態系における有害なスキルの大規模測定を初めて行った。
スキルの4.93%(4,858)が有害であり、ClawHubは8.84%、Skills.Restは3.49%である。
そして、現実的なエージェントコンテキストにおける有害なスキルに対するエージェント安全性を評価するための最初のベンチマークであるHarmfulSkillBenchを構築します。
- 参考スコア(独自算出の注目度): 20.305306682682083
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have evolved into autonomous agents that rely on open skill ecosystems (e.g., ClawHub and Skills.Rest), hosting numerous publicly reusable skills. Existing security research on these ecosystems mainly focuses on vulnerabilities within skills, such as prompt injection. However, there is a critical gap regarding skills that may be misused for harmful actions (e.g., cyber attacks, fraud and scams, privacy violations, and sexual content generation), namely harmful skills. In this paper, we present the first large-scale measurement study of harmful skills in agent ecosystems, covering 98,440 skills across two major registries. Using an LLM-driven scoring system grounded in our harmful skill taxonomy, we find that 4.93% of skills (4,858) are harmful, with ClawHub exhibiting an 8.84% harmful rate compared to 3.49% on Skills.Rest. We then construct HarmfulSkillBench, the first benchmark for evaluating agent safety against harmful skills in realistic agent contexts, comprising 200 harmful skills across 20 categories and four evaluation conditions. By evaluating six LLMs on HarmfulSkillBench, we find that presenting a harmful task through a pre-installed skill substantially lowers refusal rates across all models, with the average harm score rising from 0.27 without the skill to 0.47 with it, and further to 0.76 when the harmful intent is implicit rather than stated as an explicit user request. We responsibly disclose our findings to the affected registries and release our benchmark to support future research (see https://github.com/TrustAIRLab/HarmfulSkillBench).
- Abstract(参考訳): 大規模言語モデル(LLM)は、オープンスキルエコシステム(例えばClawHubやSkills.Rest)に依存した自律エージェントへと進化し、多くの公用スキルをホストしている。
これらのエコシステムに関する既存のセキュリティ研究は、主にプロンプトインジェクションのようなスキル内の脆弱性に焦点を当てている。
しかし、有害な行為(サイバー攻撃、詐欺や詐欺、プライバシー侵害、性的コンテンツ生成など)、すなわち有害なスキルに誤用される可能性のあるスキルには、重大なギャップがある。
本稿では,エージェント生態系における有害なスキルの大規模調査を行い,98,440のスキルを2つの主要レジストリでカバーした。
有害なスキル分類に基づくLCMによるスコアリングシステムを用いて、スキルの4.93%(4,858)が有害であり、ClawHubは、スキルの3.49%に比べて8.84%の有害であることがわかった。
そして、20のカテゴリに200の有害なスキルと4つの評価条件を含む、現実的なエージェントコンテキストにおける有害なスキルに対するエージェント安全性を評価するための最初のベンチマークであるHarmfulSkillBenchを構築した。
HarmfulSkillBench上での6つのLSMを評価することにより、プレインストールされたスキルによる有害なタスクの提示は、すべてのモデルの拒絶率を大幅に低下させ、平均的な害スコアが0.27から0.47に上昇し、さらに、有害な意図が明示的なユーザ要求ではなく暗黙的な場合にも0.76に上昇することがわかった。
影響を受けるレジストリに対する私たちの発見を責任を持って開示し、将来の研究をサポートするためのベンチマークをリリースします(https://github.com/TrustAIRLab/HarmfulSkillBenchを参照)。
関連論文リスト
- BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning [34.60596020541521]
我々はBadSkillを紹介します。BadSkillは、モデル・イン・スキル脅威サーフェスをターゲットとするバックドア攻撃の定式化です。
BadSkillでは、敵が隠れペイロードをアクティベートするために、組み込まれたモデルがバックドアで調整された、一見良心的なスキルを公開している。
ベンチマークは8つのトリガータスクと5つの非トリガー制御スキルを含む13のスキルにまたがっており、主な評価セットは571の負のクラスクエリと396のトリガー整列クエリである。
BadSkillは8つのトリガースキルの平均攻撃成功率(ASR)を99.5%まで達成し、負のクラスのクエリに対して強い良識的な精度を維持している。
論文 参考訳(メタデータ) (2026-04-10T14:48:29Z) - SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills [0.0]
SkillSieveは3層検出フレームワークで、必要に応じてより深く分析する。
400スキルのラベル付きベンチマークでは、SkillSieveは0.800 F1を達成し、ClawVetの0.421を上回った。
論文 参考訳(メタデータ) (2026-04-08T00:58:48Z) - SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study [51.717224133855886]
サードパーティのスキルはLLMエージェントを強力な能力で拡張するが、特権のある環境では機密情報を扱うことが多い。
静的解析,サンドボックステスト,手動検査を用いて17,022のスキル(SkillsMPで170,226からサンプリング)を分析した。
我々は,1,708の課題で520の脆弱なスキルを識別し,10の漏洩パターン(事故4件,反対6件)の分類を導出する。
論文 参考訳(メタデータ) (2026-04-03T14:50:16Z) - "Elementary, My Dear Watson." Detecting Malicious Skills via Neuro-Symbolic Reasoning across Heterogeneous Artifacts [9.722744060218622]
MalSkillsは、悪意のあるスキル検出のための神経象徴的なフレームワークである。
5つの最先端ベースラインに対して200の現実世界スキルのベンチマークでMalSkillsを評価した。
MalSkillsは93%のF1を獲得し、ベースラインを587ポイント上回っている。
論文 参考訳(メタデータ) (2026-03-28T09:12:07Z) - Malicious Or Not: Adding Repository Context to Agent Skill Classification [3.773312847224526]
我々は、AIエージェントスキルエコシステムにおける最大の経験的セキュリティ分析を提示する。
3つの主要なディストリビューションプラットフォームとGitHubから238,180のユニークなスキルを集めています。
我々の分析では、現在文書化されていない現実世界の攻撃ベクトルもいくつか発見されている。
論文 参考訳(メタデータ) (2026-03-17T14:27:35Z) - SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.89812116484928]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。
SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。
キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。
自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (2026-02-13T07:06:06Z) - Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study [47.60135753021306]
サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
結果として生じる脅威を特徴づけるために、地中真実のデータセットは存在しない。
我々は,98,380のスキルを行動検証することで,悪質なエージェントスキルのラベル付きデータセットを構築した。
論文 参考訳(メタデータ) (2026-02-06T09:52:27Z) - Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale [26.757365536859453]
AIエージェントフレームワークの台頭はエージェントスキル、命令を含むモジュールパッケージ、エージェント機能を動的に拡張する実行可能なコードを導入した。
このアーキテクチャは強力なカスタマイズを可能にするが、スキルは暗黙の信頼と最小限の拒否によって実行され、重要なが不適合なアタックサーフェスを生み出す。
2つの主要な市場から42,447のスキルを収集し、この新興エコシステムの最初の大規模な経験的セキュリティ分析を行います。
論文 参考訳(メタデータ) (2026-01-15T12:31:52Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。