論文の概要: Agent Skills Enable a New Class of Realistic and Trivially Simple Prompt Injections
- arxiv url: http://arxiv.org/abs/2510.26328v1
- Date: Thu, 30 Oct 2025 10:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.756439
- Title: Agent Skills Enable a New Class of Realistic and Trivially Simple Prompt Injections
- Title(参考訳): エージェントスキルは、現実的でトリビシカルにシンプルなプロンプトインジェクションのクラスを可能にする
- Authors: David Schmotz, Sahar Abdelnabi, Maksym Andriushchenko,
- Abstract要約: 辺境のLLM会社はエージェントスキルを導入してこれを一歩進めた。
簡単なプロンプトインジェクションを可能にするため、基本的に安全でないことが示される。
我々は、機密データを抽出するために、長いエージェントスキルファイルや参照スクリプトに悪意のある命令を隠蔽する方法を実証する。
- 参考スコア(独自算出の注目度): 24.46526203453932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling continual learning in LLMs remains a key unresolved research challenge. In a recent announcement, a frontier LLM company made a step towards this by introducing Agent Skills, a framework that equips agents with new knowledge based on instructions stored in simple markdown files. Although Agent Skills can be a very useful tool, we show that they are fundamentally insecure, since they enable trivially simple prompt injections. We demonstrate how to hide malicious instructions in long Agent Skill files and referenced scripts to exfiltrate sensitive data, such as internal files or passwords. Importantly, we show how to bypass system-level guardrails of a popular coding agent: a benign, task-specific approval with the "Don't ask again" option can carry over to closely related but harmful actions. Overall, we conclude that despite ongoing research efforts and scaling model capabilities, frontier LLMs remain vulnerable to very simple prompt injections in realistic scenarios. Our code is available at https://github.com/aisa-group/promptinject-agent-skills.
- Abstract(参考訳): LLMにおける継続的な学習の実現は、未だに未解決の研究課題である。
最近の発表で、フロンティアのLLM企業が、単純なマークダウンファイルに格納された命令に基づいて、エージェントに新しい知識を提供するフレームワークであるAgent Skillsを導入して、これに向けた一歩を踏み出した。
Agent Skillsは非常に有用なツールであるが、簡単なプロンプトインジェクションを可能にするため、基本的に安全でないことを示す。
我々は、長期のエージェントスキルファイルや参照スクリプトに悪意のある命令を隠して、内部ファイルやパスワードなどの機密データを抽出する方法を実証する。
重要なことは、一般的なコーディングエージェントのシステムレベルのガードレールをバイパスする方法を示している。
全体として、現在進行中の研究努力とスケーリングモデル機能にもかかわらず、フロンティアLSMは、現実的なシナリオにおいて非常に単純なインジェクションに対して脆弱なままである、と結論付けている。
私たちのコードはhttps://github.com/aisa-group/promptinject-agent-skills.comで利用可能です。
関連論文リスト
- AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。
我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。
我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-02-18T08:17:32Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文 参考訳(メタデータ) (2024-06-05T07:14:28Z) - Teams of LLM Agents can Exploit Zero-Day Vulnerabilities [3.494084149854375]
LLMエージェントのチームが実世界のゼロデイ脆弱性を悪用できることを示します。
我々は,サブエージェントを起動可能な計画エージェントを備えたエージェントシステムHPTSAを紹介する。
私たちは14の現実世界の脆弱性のベンチマークを構築し、エージェントのチームが以前のエージェントフレームワークよりも4.3Xまで改善していることを示す。
論文 参考訳(メタデータ) (2024-06-02T16:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。