論文の概要: Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study
- arxiv url: http://arxiv.org/abs/2602.06547v1
- Date: Fri, 06 Feb 2026 09:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.329041
- Title: Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study
- Title(参考訳): 野生の悪質なエージェントスキル:大規模セキュリティ実証研究
- Authors: Yi Liu, Zhihao Chen, Yanjun Zhang, Gelei Deng, Yuekang Li, Jianting Ning, Leo Yu Zhang,
- Abstract要約: サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
結果として生じる脅威を特徴づけるために、地中真実のデータセットは存在しない。
我々は,98,380のスキルを行動検証することで,悪質なエージェントスキルのラベル付きデータセットを構築した。
- 参考スコア(独自算出の注目度): 47.60135753021306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Third-party agent skills extend LLM-based agents with instruction files and executable code that run on users' machines. Skills execute with user privileges and are distributed through community registries with minimal vetting, but no ground-truth dataset exists to characterize the resulting threats. We construct the first labeled dataset of malicious agent skills by behaviorally verifying 98,380 skills from two community registries, confirming 157 malicious skills with 632 vulnerabilities. These attacks are not incidental. Malicious skills average 4.03 vulnerabilities across a median of three kill chain phases, and the ecosystem has split into two archetypes: Data Thieves that exfiltrate credentials through supply chain techniques, and Agent Hijackers that subvert agent decision-making through instruction manipulation. A single actor accounts for 54.1\% of confirmed cases through templated brand impersonation. Shadow features, capabilities absent from public documentation, appear in 0\% of basic attacks but 100\% of advanced ones; several skills go further by exploiting the AI platform's own hook system and permission flags. Responsible disclosure led to 93.6\% removal within 30 days. We release the dataset and analysis pipeline to support future work on agent skill security.
- Abstract(参考訳): サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
スキルはユーザ権限で実行され、最小限のベッティングでコミュニティレジストリを通じて配布される。
2つのコミュニティレジストリから98,380のスキルを行動検証し、632の脆弱性を持つ157の悪意あるスキルを検証し、最初のラベル付き悪意あるエージェントスキルのデータセットを構築した。
これらの攻撃は偶然ではない。
悪意のあるスキルは、3つのキルチェーンフェーズの中央値で平均4.03の脆弱性を発生させ、エコシステムは2つのアーキタイプに分かれている。
1人の俳優は、テンプレート化されたブランドの偽造によって確認されたケースの54.1\%を占める。
シャドウ機能は、公開ドキュメントにはないが、基本的な攻撃の0\%に現れるが、先進的な攻撃の100\%に表示される。
責任のある開示は30日以内に93.6%の削除につながった。
エージェントスキルのセキュリティに関する今後の作業をサポートするために、データセットと分析パイプラインをリリースしています。
関連論文リスト
- Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale [26.757365536859453]
AIエージェントフレームワークの台頭はエージェントスキル、命令を含むモジュールパッケージ、エージェント機能を動的に拡張する実行可能なコードを導入した。
このアーキテクチャは強力なカスタマイズを可能にするが、スキルは暗黙の信頼と最小限の拒否によって実行され、重要なが不適合なアタックサーフェスを生み出す。
2つの主要な市場から42,447のスキルを収集し、この新興エコシステムの最初の大規模な経験的セキュリティ分析を行います。
論文 参考訳(メタデータ) (2026-01-15T12:31:52Z) - Chasing One-day Vulnerabilities Across Open Source Forks [3.777973175977788]
本稿では,フォークリポジトリにおける1日の脆弱性の特定を支援する新しいアプローチを提案する。
このアプローチは、コミットレベルで脆弱性情報を伝播し、自動インパクト分析を実行する。
修正を組み込んでいないフォークプロジェクトを自動的に検出し、潜在的に脆弱な状態にしておくことができる。
論文 参考訳(メタデータ) (2025-11-07T09:25:47Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Breaking the Code: Security Assessment of AI Code Agents Through Systematic Jailbreaking Attacks [11.371490212283383]
コード対応の大規模言語モデル(LLM)エージェントはソフトウェア工学に組み込まれ、コードを読み、書き、実行することができる。
JAWS-BENCHは、3つのエスカレーションワークスペースにまたがるベンチマークであり、攻撃能力を反映している。
JAWS-0のプロンプトのみの条件下では、コードエージェントは平均して61%の攻撃を受けており、58%が有害、52%がパース、27%がエンドツーエンドで実行される。
論文 参考訳(メタデータ) (2025-10-01T18:38:20Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Modelsを中心とした保護システムレイヤを作成する堅牢なディフェンスである。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
セキュリティをさらに改善するため、CaMeLは、権限のないデータフロー上のプライベートデータの流出を防止する機能の概念を使用している。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。