論文の概要: Agent Skills Enable a New Class of Realistic and Trivially Simple Prompt Injections
- arxiv url: http://arxiv.org/abs/2510.26328v1
- Date: Thu, 30 Oct 2025 10:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.756439
- Title: Agent Skills Enable a New Class of Realistic and Trivially Simple Prompt Injections
- Title(参考訳): エージェントスキルは、現実的でトリビシカルにシンプルなプロンプトインジェクションのクラスを可能にする
- Authors: David Schmotz, Sahar Abdelnabi, Maksym Andriushchenko,
- Abstract要約: 辺境のLLM会社はエージェントスキルを導入してこれを一歩進めた。
簡単なプロンプトインジェクションを可能にするため、基本的に安全でないことが示される。
我々は、機密データを抽出するために、長いエージェントスキルファイルや参照スクリプトに悪意のある命令を隠蔽する方法を実証する。
- 参考スコア(独自算出の注目度): 24.46526203453932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling continual learning in LLMs remains a key unresolved research challenge. In a recent announcement, a frontier LLM company made a step towards this by introducing Agent Skills, a framework that equips agents with new knowledge based on instructions stored in simple markdown files. Although Agent Skills can be a very useful tool, we show that they are fundamentally insecure, since they enable trivially simple prompt injections. We demonstrate how to hide malicious instructions in long Agent Skill files and referenced scripts to exfiltrate sensitive data, such as internal files or passwords. Importantly, we show how to bypass system-level guardrails of a popular coding agent: a benign, task-specific approval with the "Don't ask again" option can carry over to closely related but harmful actions. Overall, we conclude that despite ongoing research efforts and scaling model capabilities, frontier LLMs remain vulnerable to very simple prompt injections in realistic scenarios. Our code is available at https://github.com/aisa-group/promptinject-agent-skills.
- Abstract(参考訳): LLMにおける継続的な学習の実現は、未だに未解決の研究課題である。
最近の発表で、フロンティアのLLM企業が、単純なマークダウンファイルに格納された命令に基づいて、エージェントに新しい知識を提供するフレームワークであるAgent Skillsを導入して、これに向けた一歩を踏み出した。
Agent Skillsは非常に有用なツールであるが、簡単なプロンプトインジェクションを可能にするため、基本的に安全でないことを示す。
我々は、長期のエージェントスキルファイルや参照スクリプトに悪意のある命令を隠して、内部ファイルやパスワードなどの機密データを抽出する方法を実証する。
重要なことは、一般的なコーディングエージェントのシステムレベルのガードレールをバイパスする方法を示している。
全体として、現在進行中の研究努力とスケーリングモデル機能にもかかわらず、フロンティアLSMは、現実的なシナリオにおいて非常に単純なインジェクションに対して脆弱なままである、と結論付けている。
私たちのコードはhttps://github.com/aisa-group/promptinject-agent-skills.comで利用可能です。
関連論文リスト
- Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks [27.120130204872325]
SkillInjectは、広く使われているLLMエージェントの、スキルファイルによるインジェクションに対する感受性を評価するベンチマークである。
SkillInjectには、明らかに悪意のあるインジェクションから、その他の正当な命令に隠された微妙なコンテキスト依存的なアタックまで、202のインジェクションタスクペアが含まれている。
以上の結果から,今日のエージェントは,フロンティアモデルによる攻撃成功率の最大80%に対して,非常に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-23T18:59:27Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - QueryIPI: Query-agnostic Indirect Prompt Injection on Coding Agents [13.098854359317523]
コーディングエージェントのための最初のクエリ非依存IPI手法であるQueryIPIを提案する。
リークされた内部プロンプトによって通知される反復的かつプロンプトベースのプロセスを通じて、悪意のあるツール記述を洗練する。
5つのシミュレーションエージェントの実験は、QueryIPIが最大で87%の成功を達成していることを示している。
論文 参考訳(メタデータ) (2025-10-27T07:04:08Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Modelsを中心とした保護システムレイヤを作成する堅牢なディフェンスである。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
セキュリティをさらに改善するため、CaMeLは、権限のないデータフロー上のプライベートデータの流出を防止する機能の概念を使用している。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。
我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。
我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-02-18T08:17:32Z) - LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage [78.33839735526769]
LeakAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
我々のフレームワークは、敵のプロンプトを生成するための攻撃エージェントとして強化学習を通じてオープンソースのLLMを訓練する。
我々は,LeakAgentが既存のルールベースのデータ抽出手法と,システムリーク時の自動手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文 参考訳(メタデータ) (2024-06-05T07:14:28Z) - Teams of LLM Agents can Exploit Zero-Day Vulnerabilities [3.494084149854375]
LLMエージェントのチームが実世界のゼロデイ脆弱性を悪用できることを示します。
我々は,サブエージェントを起動可能な計画エージェントを備えたエージェントシステムHPTSAを紹介する。
私たちは14の現実世界の脆弱性のベンチマークを構築し、エージェントのチームが以前のエージェントフレームワークよりも4.3Xまで改善していることを示す。
論文 参考訳(メタデータ) (2024-06-02T16:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。