論文の概要: Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks
- arxiv url: http://arxiv.org/abs/2602.20156v3
- Date: Wed, 25 Feb 2026 18:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 16:16:21.283626
- Title: Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks
- Title(参考訳): スキルインジェクション:ファイルアタックにおけるエージェント脆弱性の測定
- Authors: David Schmotz, Luca Beurer-Kellner, Sahar Abdelnabi, Maksym Andriushchenko,
- Abstract要約: SkillInjectは、広く使われているLLMエージェントの、スキルファイルによるインジェクションに対する感受性を評価するベンチマークである。
SkillInjectには、明らかに悪意のあるインジェクションから、その他の正当な命令に隠された微妙なコンテキスト依存的なアタックまで、202のインジェクションタスクペアが含まれている。
以上の結果から,今日のエージェントは,フロンティアモデルによる攻撃成功率の最大80%に対して,非常に脆弱であることが示唆された。
- 参考スコア(独自算出の注目度): 27.120130204872325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents are evolving rapidly, powered by code execution, tools, and the recently introduced agent skills feature. Skills allow users to extend LLM applications with specialized third-party code, knowledge, and instructions. Although this can extend agent capabilities to new domains, it creates an increasingly complex agent supply chain, offering new surfaces for prompt injection attacks. We identify skill-based prompt injection as a significant threat and introduce SkillInject, a benchmark evaluating the susceptibility of widely-used LLM agents to injections through skill files. SkillInject contains 202 injection-task pairs with attacks ranging from obviously malicious injections to subtle, context-dependent attacks hidden in otherwise legitimate instructions. We evaluate frontier LLMs on SkillInject, measuring both security in terms of harmful instruction avoidance and utility in terms of legitimate instruction compliance. Our results show that today's agents are highly vulnerable with up to 80% attack success rate with frontier models, often executing extremely harmful instructions including data exfiltration, destructive action, and ransomware-like behavior. They furthermore suggest that this problem will not be solved through model scaling or simple input filtering, but that robust agent security will require context-aware authorization frameworks. Our benchmark is available at https://www.skill-inject.com/.
- Abstract(参考訳): LLMエージェントは、コード実行、ツール、最近導入されたエージェントスキル機能によって急速に進化している。
スキルにより、ユーザーは特別なサードパーティのコード、知識、命令でLLMアプリケーションを拡張できる。
これにより、新しいドメインにエージェント機能を拡張できるが、エージェントサプライチェーンがますます複雑になり、インジェクション攻撃に新しいサーフェスを提供する。
我々は、スキルベースのプロンプトインジェクションを重大な脅威として認識し、スキルファイルを介して、広く使われているLLMエージェントのインジェクションに対する感受性を評価するベンチマークであるSkillInjectを導入する。
SkillInjectには、明らかに悪意のあるインジェクションから、その他の正当な命令に隠された微妙なコンテキスト依存的なアタックまで、202のインジェクションタスクペアが含まれている。
我々は,SkillInject 上でのフロンティア LLM の評価を行い,有害な命令回避と正統な命令コンプライアンスの両面からセキュリティを計測した。
その結果、今日のエージェントは、フロンティアモデルで最大80%の攻撃成功率で非常に脆弱であり、データ流出、破壊行動、ランサムウェアのような行動を含む極めて有害な指示を実行していることが明らかとなった。
さらに彼らは、この問題はモデルスケーリングや単純な入力フィルタリングによって解決されるのではなく、堅牢なエージェントセキュリティにはコンテキスト対応の認証フレームワークが必要であることを示唆している。
私たちのベンチマークはhttps://www.skill-inject.com/で公開されています。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Agent Skills Enable a New Class of Realistic and Trivially Simple Prompt Injections [24.46526203453932]
辺境のLLM会社はエージェントスキルを導入してこれを一歩進めた。
簡単なプロンプトインジェクションを可能にするため、基本的に安全でないことが示される。
我々は、機密データを抽出するために、長いエージェントスキルファイルや参照スクリプトに悪意のある命令を隠蔽する方法を実証する。
論文 参考訳(メタデータ) (2025-10-30T10:27:11Z) - Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。
バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文 参考訳(メタデータ) (2025-10-04T07:11:11Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。