論文の概要: SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction
- arxiv url: http://arxiv.org/abs/2606.02540v1
- Date: Mon, 01 Jun 2026 17:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.547981
- Title: SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction
- Title(参考訳): SkillHarm: 自動構築によるライフサイクル認識スキルベースの攻撃
- Authors: Yuting Ning, Zhehao Zhang, Yash Kumar Lal, Boyu Gou, Junyi Li, Weitong Ruan, Chentao Ye, Rahul Gupta, Diyi Yang, Yu Su, Huan Sun,
- Abstract要約: エージェントスキルはエージェントワークフローにおける特権的な位置を占め、サードパーティスキルを脆弱な攻撃面にする。
我々はスキルベースアタックのベンチマークであるSkillHarmを紹介した。
攻撃成功率はFPPが86.3%、SMPが69.3%である。
- 参考スコア(独自算出の注目度): 89.03272793385054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent skills occupy a privileged position in the agent workflow, as agents are expected to implicitly follow and execute them, rendering third-party skills a vulnerable attack surface. Existing studies have revealed unsafe agent behaviors induced by skill-based attacks, but they primarily evaluate poisoned skills within a single task execution and enumerate harms through ad-hoc risk lists. To bridge these gaps, we introduce SkillHarm, a benchmark of skill-based attacks across the skill-use lifecycle, paired with a systematic taxonomy of skill-relevant risks. SkillHarm evaluates two attack scenarios: Fixed-Payload Poisoning (FPP), where a fixed poisoned skill package directly compromises any task session that invokes it, and Self-Mutating Poisoning (SMP), where an initially benign execution silently mutates persistent skill content, deferring harm until a subsequent reuse. It further defines 12 risk types based on the agent workflow component targeted by the harm: data pipelines, system environments, and agent autonomy. To instantiate these attacks at scale, we build AutoSkillHarm, an automated construction pipeline with coding agents driven by natural-language harnesses. The resulting benchmark contains 879 attack samples across 71 skills. Experiments show that current agents remain vulnerable with attack success rates up to 86.3% in FPP and 69.3% in SMP. Our analysis further reveals a latent risk: many apparent attack failures stem from the agent failing to engage with the poisoned file rather than genuine resistance, and current defenses still fail to reliably mitigate the threat.
- Abstract(参考訳): エージェントスキルはエージェントワークフローにおいて特権的な位置を占めており、エージェントは暗黙的にそれに従って実行され、サードパーティスキルが脆弱な攻撃面になる。
既存の研究では、スキルベースの攻撃によって引き起こされる安全でないエージェントの行動が明らかにされているが、彼らは主に1つのタスクの実行内で有毒なスキルを評価し、アドホックなリスクリストを通じて害を列挙している。
これらのギャップを埋めるために、スキルベースの攻撃のベンチマークであるSkillHarmを紹介します。
SkillHarm氏は、FPP(Fixed-Payload Poisoning)とSMP(Self-Mutating Poisoning)の2つの攻撃シナリオを評価している。
さらに、データパイプライン、システム環境、エージェントの自律性といったハーネスをターゲットとしたエージェントワークフローコンポーネントに基づいて、12のリスクタイプを定義する。
これらの攻撃を大規模にインスタンス化するために、私たちは、自然言語ハーネスによって駆動されるコーディングエージェントを備えた自動構築パイプラインであるAutoSkillHarmを構築しました。
その結果得られたベンチマークには、71のスキルにわたる879の攻撃サンプルが含まれている。
実験の結果、現在のエージェントはFPPの86.3%、SMPの69.3%まで攻撃の成功率に弱いままであることがわかった。
多くの明らかな攻撃失敗は、エージェントが真の抵抗ではなく、有毒なファイルに関わらなかったことによるものであり、現在の防御は脅威を確実に軽減することができない。
関連論文リスト
- Plant, Persist, Trigger: Sleeper Attack on Large Language Model Agents [64.80318459073526]
敵のコンテンツは、同一のエージェントによって提供される相互作用にまたがって持続できることを示し、そのような脅威を検知し緩和することを困難にしている。
具体的には、敵対的コンテンツはエージェント状態に留まり、相互作用をまたいだ休眠状態に留まり、その後、良心的なユーザクエリによって活性化される。
我々は、このタイプの安全脅威をスリーパー攻撃として形式化し、評価するために、現実世界の有害な結果6つ、攻撃戦略3つ、エージェント状態の目標3つをカバーする1,896件のベンチマークを構築した。
論文 参考訳(メタデータ) (2026-05-27T09:25:37Z) - Under the Hood of SKILL.md: Semantic Supply-chain Attacks on AI Agent Skill Registry [49.83108591873481]
SKILL.md - エージェントスキルライフサイクルの3つのステージを対象とするアタックのみを調査する。
SKILL.mdは受動的ドキュメントではなく、サードパーティのエージェントが発見し、信頼し、使用する機能を形成する運用テキストであることを示す。
論文 参考訳(メタデータ) (2026-05-12T02:11:54Z) - Black-Box Skill Stealing Attack from Proprietary LLM Agents: An Empirical Study [32.698841771877824]
大規模言語モデル(LLM)エージェントは、インストラクション、ツール、リソースを通じて再利用可能な機能をパッケージするスキルに依存している。
高品質なスキルは、専門家の知識、キュレーション、実行の制約をエージェントに埋め込む。
敵は公開エージェントインターフェースと対話して、隠されたプロプライエタリなスキルコンテンツを抽出できる。
論文 参考訳(メタデータ) (2026-04-23T16:18:47Z) - BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning [34.60596020541521]
我々はBadSkillを紹介します。BadSkillは、モデル・イン・スキル脅威サーフェスをターゲットとするバックドア攻撃の定式化です。
BadSkillでは、敵が隠れペイロードをアクティベートするために、組み込まれたモデルがバックドアで調整された、一見良心的なスキルを公開している。
ベンチマークは8つのトリガータスクと5つの非トリガー制御スキルを含む13のスキルにまたがっており、主な評価セットは571の負のクラスクエリと396のトリガー整列クエリである。
BadSkillは8つのトリガースキルの平均攻撃成功率(ASR)を99.5%まで達成し、負のクラスのクエリに対して強い良識的な精度を維持している。
論文 参考訳(メタデータ) (2026-04-10T14:48:29Z) - SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks [27.120130204872325]
SkillInjectは、広く使われているLLMエージェントの、スキルファイルによるインジェクションに対する感受性を評価するベンチマークである。
SkillInjectには、明らかに悪意のあるインジェクションから、その他の正当な命令に隠された微妙なコンテキスト依存的なアタックまで、202のインジェクションタスクペアが含まれている。
以上の結果から,今日のエージェントは,フロンティアモデルによる攻撃成功率の最大80%に対して,非常に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-23T18:59:27Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。