論文の概要: SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement
- arxiv url: http://arxiv.org/abs/2604.04989v1
- Date: Sun, 05 Apr 2026 06:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.386587
- Title: SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement
- Title(参考訳): SkillAttack:アタックパスのリファインメントによるエージェントスキルの自動化
- Authors: Zenghao Duan, Yuxin Tian, Zhiyi Yin, Liang Pang, Jingcheng Deng, Zihao Wei, Shicheng Xu, Yuyao Ge, Xueqi Cheng,
- Abstract要約: LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
- 参考スコア(独自算出の注目度): 66.44008181092832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agent systems increasingly rely on agent skills sourced from open registries to extend their capabilities, yet the openness of such ecosystems makes skills difficult to thoroughly vet. Existing attacks rely on injecting malicious instructions into skills, making them easily detectable by static auditing. However, non-malicious skills may also harbor latent vulnerabilities that an attacker can exploit solely through adversarial prompting, without modifying the skill itself. We introduce SkillAttack, a red-teaming framework that dynamically verifies skill vulnerability exploitability through adversarial prompting. SkillAttack combines vulnerability analysis, surface-parallel attack generation, and feedback-driven exploit refinement into a closed-loop search that progressively converges toward successful exploitation. Experiments across 10 LLMs on 71 adversarial and 100 real-world skills show that SkillAttack outperforms all baselines by a wide margin (ASR 0.73--0.93 on adversarial skills, up to 0.26 on real-world skills), revealing that even well-intended skills pose serious security risks under realistic agent interactions.
- Abstract(参考訳): LLMベースのエージェントシステムは、その能力を拡張するために、オープンレジストリから派生したエージェントスキルにますます依存しているが、そのようなエコシステムの開放性は、徹底的な検査を困難にしている。
既存の攻撃は、悪意のある命令をスキルに注入することに依存しており、静的監査によって容易に検出できる。
しかし、非攻撃的なスキルは、攻撃者がスキル自体を変更することなく、敵のプロンプトを通じてのみ悪用できる潜伏する脆弱性を負う可能性がある。
SkillAttackは、相手のプロンプトを通じて、スキル脆弱性の脆弱性を動的に検証する赤チームフレームワークである。
SkillAttackは脆弱性分析、表面並列攻撃生成、フィードバック駆動によるエクスプロイト改善をクローズドループ検索に組み合わせて、徐々にエクスプロイトの成功に向けて収束する。
71の敵と100の現実世界のスキルに対する10のLDM実験では、SkillAttackは全てのベースラインを幅広いマージン(ASR 0.73--0.93、現実世界のスキルの最大0.26)で上回り、現実的なエージェントの相互作用の下では、十分に意図されたスキルでさえ深刻なセキュリティリスクを生じさせることを示した。
関連論文リスト
- Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems [35.65937852381774]
Document-Driven Implicit Payload Execution (DDIPE)は、コード例や設定テンプレートに悪意のあるロジックを埋め込む。
我々は15のMITRE ATTACKカテゴリで81種から1,070の対逆スキルを生成した。
DDIPEは11.6%から33.5%のバイパス率を獲得し、明示的な命令攻撃は強い防御下で0%を達成する。
論文 参考訳(メタデータ) (2026-04-03T14:58:58Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - "Elementary, My Dear Watson." Detecting Malicious Skills via Neuro-Symbolic Reasoning across Heterogeneous Artifacts [9.722744060218622]
MalSkillsは、悪意のあるスキル検出のための神経象徴的なフレームワークである。
5つの最先端ベースラインに対して200の現実世界スキルのベンチマークでMalSkillsを評価した。
MalSkillsは93%のF1を獲得し、ベースラインを587ポイント上回っている。
論文 参考訳(メタデータ) (2026-03-28T09:12:07Z) - SkillProbe: Security Auditing for Emerging Agent Skill Marketplaces via Multi-Agent Collaboration [22.680481305584028]
SkillProbeはマルチエージェントコラボレーションによって駆動されるマルチステージセキュリティ監査フレームワークである。
ClawHubから2500の現実世界スキルを対象とした8つの主流シリーズを用いた大規模評価を行った。
私たちの結果は、ダウンロードボリュームが信頼できるプロキシのセキュリティ品質ではないという、重大な人気セキュリティのパラドックスを明らかにしました。
論文 参考訳(メタデータ) (2026-03-22T02:31:27Z) - SkillNet: Create, Evaluate, and Connect AI Skills [159.47504178122156]
SkillNetは、大規模にAIスキルを作成し、評価し、組織化するように設計されたオープンインフラストラクチャである。
私たちのインフラストラクチャは、20万を超えるスキルのリポジトリ、インタラクティブなプラットフォーム、多目的Pythonツールキットを統合しています。
論文 参考訳(メタデータ) (2026-02-26T14:24:02Z) - Capability-Oriented Training Induced Alignment Risk [101.37328448441208]
我々は、強化学習で訓練された言語モデルが、その報酬を最大化するために欠陥を利用することを自然に学習するかどうかを考察する。
我々の実験は、モデルがこれらの脆弱性を常に活用し、タスクの正しさや安全性を犠牲にして報酬を著しく増大させる機会論的戦略を発見していることを示している。
我々の研究結果は、将来のAIの安全作業がコンテンツモデレーションを超えて、トレーニング環境の厳格な監査と確保、および報奨メカニズム自体に拡張する必要があることを示唆している。
論文 参考訳(メタデータ) (2026-02-12T16:13:14Z) - Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study [47.60135753021306]
サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
結果として生じる脅威を特徴づけるために、地中真実のデータセットは存在しない。
我々は,98,380のスキルを行動検証することで,悪質なエージェントスキルのラベル付きデータセットを構築した。
論文 参考訳(メタデータ) (2026-02-06T09:52:27Z) - Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale [26.757365536859453]
AIエージェントフレームワークの台頭はエージェントスキル、命令を含むモジュールパッケージ、エージェント機能を動的に拡張する実行可能なコードを導入した。
このアーキテクチャは強力なカスタマイズを可能にするが、スキルは暗黙の信頼と最小限の拒否によって実行され、重要なが不適合なアタックサーフェスを生み出す。
2つの主要な市場から42,447のスキルを収集し、この新興エコシステムの最初の大規模な経験的セキュリティ分析を行います。
論文 参考訳(メタデータ) (2026-01-15T12:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。