論文の概要: Plant, Persist, Trigger: Sleeper Attack on Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2605.28201v1
- Date: Wed, 27 May 2026 09:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.925579
- Title: Plant, Persist, Trigger: Sleeper Attack on Large Language Model Agents
- Title(参考訳): 植物、パーシスト、トリガー:大規模言語モデルエージェントに対するスリーパー攻撃
- Authors: Yongxiang Li, Moxin Li, Zhixin Ma, Fengbin Zhu, Dongrui Liu, Wenjie Wang, Fuli Feng,
- Abstract要約: 敵のコンテンツは、同一のエージェントによって提供される相互作用にまたがって持続できることを示し、そのような脅威を検知し緩和することを困難にしている。
具体的には、敵対的コンテンツはエージェント状態に留まり、相互作用をまたいだ休眠状態に留まり、その後、良心的なユーザクエリによって活性化される。
我々は、このタイプの安全脅威をスリーパー攻撃として形式化し、評価するために、現実世界の有害な結果6つ、攻撃戦略3つ、エージェント状態の目標3つをカバーする1,896件のベンチマークを構築した。
- 参考スコア(独自算出の注目度): 64.80318459073526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents remain vulnerable to safety threats from the external environment, where attackers inject adversarial content into external observations such as tool-returned data, webpages, or MCP context, causing harmful agentic behaviors such as unsafe actions or incorrect outputs. Existing studies typically focus on single-interaction attacks, where the agent observes adversarial content and immediately exhibits harmful behavior within one user request. However, we show that adversarial content can also persist across interactions served by the same agent, making such threats harder to detect and mitigate. Specifically, adversarial content may persist in the agent state, remain dormant across interactions, and later be activated by a benign user query. We formalize this type of safety threat as Sleeper Attack. To evaluate it, we construct a benchmark with 1,896 instances covering six real-world harmful outcomes, three attack strategies, and three agent state targets: session context, memory, and reusable skills. Experiments on seven strong open-source and closed-source LLMs show that state-of-the-art LLM agents remain vulnerable to Sleeper Attack, even when they achieve low attack success rates under a single-interaction baseline. Our code and data are available at https://anonymous.4open.science/r/skdvnfu23ihr9wdscnksf1asdffsaef.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、攻撃者がツールリターンされたデータ、Webページ、MSPコンテキストなどの外部観測に敵対的コンテンツを注入し、安全でないアクションや不正なアウトプットなどの有害なエージェント行動を引き起こす、外部環境からの安全上の脅威に弱いままである。
既存の研究では、エージェントが敵のコンテンツを観察し、ただちに1つのユーザー要求内で有害な振る舞いを示す、シングル・インタラクション・アタックに重点を置いている。
しかし、敵のコンテンツは同一のエージェントによって提供される相互作用にまたがって持続し、そのような脅威を検知し緩和することが困難であることを示す。
具体的には、敵対的コンテンツはエージェント状態に留まり、相互作用をまたいだ休眠状態に留まり、その後、良心的なユーザクエリによって活性化される。
我々はこの種の安全脅威をスリーパーアタックとして定式化する。
評価のために,実世界の有害な結果6件,攻撃戦略3件,エージェント状態目標3件(セッションコンテキスト,メモリ,再利用可能なスキル)をカバーする1,896件のベンチマークを構築した。
7つの強力なオープンソースおよびクローズドソース LLM の実験では、単一のアクションベースライン下での攻撃成功率が低い場合でも、最先端の LLM エージェントがスリーパーアタックに対して脆弱であることが示されている。
私たちのコードとデータはhttps://anonymous.4open.science/r/skdvnfu23ihr9wdscnksf1asdffsaefで公開されています。
関連論文リスト
- ARGUS: Defending LLM Agents Against Context-Aware Prompt Injection [28.414099578635373]
AgentLureは、コンテキスト依存タスクとコンテキスト認識インジェクション攻撃をキャプチャするベンチマークである。
この制限に対処するため,我々は,LDMエージェントの事前判定監査を実施する防衛機構であるARGUSを提案する。
論文 参考訳(メタデータ) (2026-05-05T05:37:00Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Air Gap: Protecting Privacy-Conscious Conversational Agents [44.04662124191715]
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
論文 参考訳(メタデータ) (2024-05-08T16:12:45Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。