Fugu-MT 論文翻訳(概要): Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks

論文の概要: Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks

arxiv url: http://arxiv.org/abs/2602.20156v3
Date: Wed, 25 Feb 2026 18:14:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 16:16:21.283626
Title: Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks
Title（参考訳）: スキルインジェクション:ファイルアタックにおけるエージェント脆弱性の測定
Authors: David Schmotz, Luca Beurer-Kellner, Sahar Abdelnabi, Maksym Andriushchenko,
Abstract要約: SkillInjectは、広く使われているLLMエージェントの、スキルファイルによるインジェクションに対する感受性を評価するベンチマークである。 SkillInjectには、明らかに悪意のあるインジェクションから、その他の正当な命令に隠された微妙なコンテキスト依存的なアタックまで、202のインジェクションタスクペアが含まれている。以上の結果から,今日のエージェントは,フロンティアモデルによる攻撃成功率の最大80%に対して,非常に脆弱であることが示唆された。
参考スコア（独自算出の注目度）: 27.120130204872325
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM agents are evolving rapidly, powered by code execution, tools, and the recently introduced agent skills feature. Skills allow users to extend LLM applications with specialized third-party code, knowledge, and instructions. Although this can extend agent capabilities to new domains, it creates an increasingly complex agent supply chain, offering new surfaces for prompt injection attacks. We identify skill-based prompt injection as a significant threat and introduce SkillInject, a benchmark evaluating the susceptibility of widely-used LLM agents to injections through skill files. SkillInject contains 202 injection-task pairs with attacks ranging from obviously malicious injections to subtle, context-dependent attacks hidden in otherwise legitimate instructions. We evaluate frontier LLMs on SkillInject, measuring both security in terms of harmful instruction avoidance and utility in terms of legitimate instruction compliance. Our results show that today's agents are highly vulnerable with up to 80% attack success rate with frontier models, often executing extremely harmful instructions including data exfiltration, destructive action, and ransomware-like behavior. They furthermore suggest that this problem will not be solved through model scaling or simple input filtering, but that robust agent security will require context-aware authorization frameworks. Our benchmark is available at https://www.skill-inject.com/.
Abstract（参考訳）: LLMエージェントは、コード実行、ツール、最近導入されたエージェントスキル機能によって急速に進化している。スキルにより、ユーザーは特別なサードパーティのコード、知識、命令でLLMアプリケーションを拡張できる。これにより、新しいドメインにエージェント機能を拡張できるが、エージェントサプライチェーンがますます複雑になり、インジェクション攻撃に新しいサーフェスを提供する。我々は、スキルベースのプロンプトインジェクションを重大な脅威として認識し、スキルファイルを介して、広く使われているLLMエージェントのインジェクションに対する感受性を評価するベンチマークであるSkillInjectを導入する。 SkillInjectには、明らかに悪意のあるインジェクションから、その他の正当な命令に隠された微妙なコンテキスト依存的なアタックまで、202のインジェクションタスクペアが含まれている。我々は,SkillInject 上でのフロンティア LLM の評価を行い,有害な命令回避と正統な命令コンプライアンスの両面からセキュリティを計測した。その結果、今日のエージェントは、フロンティアモデルで最大80%の攻撃成功率で非常に脆弱であり、データ流出、破壊行動、ランサムウェアのような行動を含む極めて有害な指示を実行していることが明らかとなった。さらに彼らは、この問題はモデルスケーリングや単純な入力フィルタリングによって解決されるのではなく、堅牢なエージェントセキュリティにはコンテキスト対応の認証フレームワークが必要であることを示唆している。私たちのベンチマークはhttps://www.skill-inject.com/で公開されています。

関連論文リスト

SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文参考訳（メタデータ） (2026-02-15T16:09:48Z)
Defense Against Indirect Prompt Injection via Tool Result Parsing [5.69701430275527]
LLMエージェントは間接的なプロンプトインジェクションからエスカレートする脅威に直面している。この脆弱性は、エージェントが物理的な環境をより直接的に制御するようになると、重大なリスクをもたらす。そこで本稿では,LLMに対してツール解析による正確なデータを提供するとともに,注入された悪意のあるコードを効果的にフィルタリングする手法を提案する。
論文参考訳（メタデータ） (2026-01-08T10:21:56Z)
Agent Skills Enable a New Class of Realistic and Trivially Simple Prompt Injections [24.46526203453932]
辺境のLLM会社はエージェントスキルを導入してこれを一歩進めた。簡単なプロンプトインジェクションを可能にするため、基本的に安全でないことが示される。我々は、機密データを抽出するために、長いエージェントスキルファイルや参照スクリプトに悪意のある命令を隠蔽する方法を実証する。
論文参考訳（メタデータ） (2025-10-30T10:27:11Z)
Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文参考訳（メタデータ） (2025-10-06T23:09:18Z)
Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文参考訳（メタデータ） (2025-10-04T07:11:11Z)
TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文参考訳（メタデータ） (2025-07-18T06:23:31Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。 InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文参考訳（メタデータ） (2024-03-05T06:21:45Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。