論文の概要: Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections
- arxiv url: http://arxiv.org/abs/2602.15654v1
- Date: Tue, 17 Feb 2026 15:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.109743
- Title: Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections
- Title(参考訳): ゾンビ剤:自己増進LDM剤の自己増進注入による持続的制御
- Authors: Xianglin Yang, Yufei He, Shuo Ji, Bryan Hooi, Jin Song Dong,
- Abstract要約: セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.64370755825839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-evolving LLM agents update their internal state across sessions, often by writing and reusing long-term memory. This design improves performance on long-horizon tasks but creates a security risk: untrusted external content observed during a benign session can be stored as memory and later treated as instruction. We study this risk and formalize a persistent attack we call a Zombie Agent, where an attacker covertly implants a payload that survives across sessions, effectively turning the agent into a puppet of the attacker. We present a black-box attack framework that uses only indirect exposure through attacker-controlled web content. The attack has two phases. During infection, the agent reads a poisoned source while completing a benign task and writes the payload into long-term memory through its normal update process. During trigger, the payload is retrieved or carried forward and causes unauthorized tool behavior. We design mechanism-specific persistence strategies for common memory implementations, including sliding-window and retrieval-augmented memory, to resist truncation and relevance filtering. We evaluate the attack on representative agent setups and tasks, measuring both persistence over time and the ability to induce unauthorized actions while preserving benign task quality. Our results show that memory evolution can convert one-time indirect injection into persistent compromise, which suggests that defenses focused only on per-session prompt filtering are not sufficient for self-evolving agents.
- Abstract(参考訳): 自己進化型LLMエージェントは、セッション間で内部状態を更新する。
この設計は、長期タスクのパフォーマンスを改善するが、セキュリティリスクを生じさせる: 良心的なセッション中に観察された信頼できない外部コンテンツは、メモリとして保存され、後に命令として扱われる。
我々は、このリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃をフォーマル化する。攻撃者は、セッション中に生き残るペイロードを隠蔽して、エージェントを攻撃者の人形に変える。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
攻撃には2つの段階がある。
感染中、エージェントは良心的なタスクを完了しながら有毒なソースを読み出し、正常な更新プロセスを通じてペイロードを長期記憶に書き込む。
トリガー中、ペイロードは検索または転送され、不正なツール動作を引き起こす。
我々は,スライディングウインドウや検索拡張メモリなど,一般的なメモリ実装のための機構固有の永続化戦略を設計し,トランケーションや関連フィルタリングに抵抗する。
エージェント設定やタスクに対する攻撃を評価し、時間とともに持続性を測定し、良質なタスク品質を維持しながら、不正なアクションを誘発する能力を評価した。
以上の結果から, 記憶の進化は, 間接注入を持続的妥協に変換することが可能であり, 自己進化エージェントには, セッションごとのプロンプトフィルタリングのみに焦点をあてた防御が不十分であることが示された。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management [47.49917373646469]
既存の防御は肥大した記憶を与えられたまま扱い、回復力を維持することに集中する。
我々は、明示的なメモリ管理を通じて間接的なインジェクションを防御するフレームワークであるAgentSysを紹介する。
論文 参考訳(メタデータ) (2026-02-07T06:28:51Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - MemoryGraft: Persistent Compromise of LLM Agents via Poisoned Experience Retrieval [5.734678752740074]
MemoryGraftは、エージェントの動作を即時ジェイルブレイクではなく、エージェントの長期記憶に悪質な成功体験を埋め込むことによって妥協する、新しい間接的インジェクション攻撃である。
エージェントが実行中に読み取る良質な摂取レベルのアーティファクトを供給できる攻撃者は、それを誘導して有毒なRAGストアを構築することができることを示す。
エージェントが後に意味論的に類似したタスクに遭遇すると、語彙テンプレート上の結合検索と埋め込み類似性は、これらのグラフトされた記憶を確実に表面化し、エージェントは埋め込みされた安全でないパターンを採用し、セッション間の永続的な行動的ドリフトをもたらす。
論文 参考訳(メタデータ) (2025-12-18T08:34:40Z) - Reasoning-Style Poisoning of LLM Agents via Stealthy Style Transfer: Process-Level Attacks and Runtime Monitoring in RSV Space [4.699272847316498]
Reasoning-Style Poisoning (RSP)は、エージェントが処理するものよりも情報を処理する方法を操作する。
Generative Style Injection (GSI)は、検索した文書を病的トーンに書き換える。
RSP-Mは軽量なランタイムモニタで、RSVメトリクスをリアルタイムで計算し、安全性の閾値を超える値にアラートをトリガーする。
論文 参考訳(メタデータ) (2025-12-16T14:34:10Z) - Your Agent Can Defend Itself against Backdoor Attacks [0.0]
大規模言語モデル(LLM)を駆使したエージェントは、トレーニングと微調整の間、バックドア攻撃による重大なセキュリティリスクに直面している。
本稿では,LDMをベースとしたエージェントに対するバックドア攻撃に対する新たな防御策であるReAgentを紹介する。
論文 参考訳(メタデータ) (2025-06-10T01:45:56Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。