論文の概要: MemMorph: Tool Hijacking in LLM Agents via Memory Poisoning
- arxiv url: http://arxiv.org/abs/2605.26154v1
- Date: Sun, 24 May 2026 04:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.201416
- Title: MemMorph: Tool Hijacking in LLM Agents via Memory Poisoning
- Title(参考訳): MemMorph: メモリ中毒によるLDMエージェントのツールハイジャック
- Authors: Xuanye Zhang, Yongsen Zheng, Zhuqin Xu, Kaiyu Zhou, Bowen Shen, Haoran Ou, Tianwei Zhang, Kwok-Yan Lam,
- Abstract要約: LLMエージェントは、ユーザのタスクを完了させるために外部ツールを選択することができる。
本稿では,エージェントの長期記憶を害してバイアスツールの選択を行う最初の攻撃であるMemMorphを提案する。
- 参考スコア(独自算出の注目度): 33.50057841368287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-driven agents are capable of selecting external tools to complete users' tasks. However, attackers could compromise such process, steering agents toward inappropriate/wrong tools and enabling malicious actions. Most existing attacks primarily manipulate the tool metadata, which is easily detectable by auditing and may lose effectiveness as modern agents increasingly adopt memory modules to refine tool selection policies through accumulated experience. This paper proposes MemMorph, the first attack that bias tool selection by poisoning the agent's long-term memory. Rather than explicitly dictating the tool invocation decision, MemMorph injects a small number of crafted records that are disguised as technical facts, incident reports, and operational policies. These poisoned records reshape the agent's contextual perception and decision-making process, leading it to autonomously infer and select the tool preferred by the attacker. Experiments across 3 benchmarks, 10 agent backbones, and 3 memory-module implementations show that MemMorph achieves up to 85.9% attack success rate with only three injected records, outperforming the strongest baseline by up to 25% while retaining potency under 3 representative defenses. Our findings expose long-term memory as a critical and under-explored attack surface in tool-augmented agents, urging the development of memory-level integrity safeguards.
- Abstract(参考訳): LLMエージェントは、ユーザのタスクを完了させるために外部ツールを選択することができる。
しかし、攻撃者はそのようなプロセスを妥協し、不適切な/怒りのツールにエージェントを操り、悪意ある行為を可能にする。
既存の攻撃のほとんどはツールメタデータを主に操作するが、これは監査によって容易に検出でき、現代のエージェントがメモリモジュールを採用して、蓄積した経験を通じてツール選択ポリシーを洗練することによって効果を失う可能性がある。
本稿では,エージェントの長期記憶を害してバイアスツールの選択を行う最初の攻撃であるMemMorphを提案する。
MemMorphは、ツールの呼び出し決定を明示的に指示する代わりに、技術的事実、インシデントレポート、運用ポリシーに偽装された少数の人工記録を注入する。
これらの有毒な記録は、エージェントの文脈的認識と意思決定プロセスを再形成し、攻撃者が好むツールを自律的に推測し選択する。
3つのベンチマーク、10個のエージェントバックボーン、3つのメモリモジュール実装による実験では、MemMorphは最大85.9%の攻撃成功率で3つのインジェクトレコードしか達成できず、3つの代表ディフェンスの下で有効性を保ちながら、最強のベースラインを25%上回っている。
本研究は, 長期記憶をツール増強剤のクリティカルかつ低探索攻撃面として明らかにし, メモリレベルの完全性保護装置の開発を促した。
関連論文リスト
- MemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection [15.403262505444454]
本稿では,大規模言語モデルエージェントのための時間後因果記憶監査フレームワークを提案する。
MemAuditは、現実的なポストホック監査シナリオ下での攻撃成功率を大幅に削減する。
論文 参考訳(メタデータ) (2026-05-22T15:03:13Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management [47.49917373646469]
既存の防御は肥大した記憶を与えられたまま扱い、回復力を維持することに集中する。
我々は、明示的なメモリ管理を通じて間接的なインジェクションを防御するフレームワークであるAgentSysを紹介する。
論文 参考訳(メタデータ) (2026-02-07T06:28:51Z) - A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory [31.673865459672285]
大規模言語モデル(LLM)エージェントは、過去のインタラクションから学習するためにメモリを使用する。
敵は、エージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
A-MemGuard は LLM エージェントメモリのための最初のプロアクティブな防御フレームワークである。
論文 参考訳(メタデータ) (2025-09-29T16:04:15Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - Memory Injection Attacks on LLM Agents via Query-Only Interaction [49.14715983268449]
我々は,攻撃者がエージェントのメモリバンクを直接変更できると仮定することなく,新たなメモリインジェクション攻撃(MINJA)を提案する。
攻撃者は、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入する。
MINJAは、任意のユーザがエージェントメモリに影響を与え、リスクを強調します。
論文 参考訳(メタデータ) (2025-03-05T17:53:24Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。