論文の概要: A Practical Memory Injection Attack against LLM Agents
- arxiv url: http://arxiv.org/abs/2503.03704v1
- Date: Wed, 05 Mar 2025 17:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:51:30.607895
- Title: A Practical Memory Injection Attack against LLM Agents
- Title(参考訳): LLMエージェントに対する実用的なメモリインジェクション攻撃
- Authors: Shen Dong, Shaocheng Xu, Pengfei He, Yige Li, Jiliang Tang, Tianming Liu, Hui Liu, Zhen Xiang,
- Abstract要約: MINJAは、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入することができる。
MINJAは、任意のユーザがエージェントメモリに影響を与え、LLMエージェントの実践的なリスクを強調します。
- 参考スコア(独自算出の注目度): 46.42216440184125
- License:
- Abstract: Agents based on large language models (LLMs) have demonstrated strong capabilities in a wide range of complex, real-world applications. However, LLM agents with a compromised memory bank may easily produce harmful outputs when the past records retrieved for demonstration are malicious. In this paper, we propose a novel Memory INJection Attack, MINJA, that enables the injection of malicious records into the memory bank by only interacting with the agent via queries and output observations. These malicious records are designed to elicit a sequence of malicious reasoning steps leading to undesirable agent actions when executing the victim user's query. Specifically, we introduce a sequence of bridging steps to link the victim query to the malicious reasoning steps. During the injection of the malicious record, we propose an indication prompt to guide the agent to autonomously generate our designed bridging steps. We also propose a progressive shortening strategy that gradually removes the indication prompt, such that the malicious record will be easily retrieved when processing the victim query comes after. Our extensive experiments across diverse agents demonstrate the effectiveness of MINJA in compromising agent memory. With minimal requirements for execution, MINJA enables any user to influence agent memory, highlighting practical risks of LLM agents.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくエージェントは、幅広い複雑な実世界のアプリケーションで強力な機能を示している。
しかし、不正なメモリバンクを持つLCMエージェントは、デモのために検索された過去のレコードが悪意がある場合に、有害な出力を容易に生成することができる。
本稿では,メモリバンクに悪意のあるレコードを注入し,クエリと出力観察のみでエージェントと対話できる新しいメモリインジェクションアタック(MINJA)を提案する。
これらの悪意のあるレコードは、被害者のクエリを実行する際に、望ましくないエージェントアクションにつながる悪意のある推論手順を導き出すように設計されている。
具体的には、被害者のクエリを悪意のある推論ステップにリンクするためのブリッジング手順を紹介します。
悪意のある記録を注入する際、エージェントが設計したブリッジングステップを自律的に生成するための指示プロンプトを提案する。
また,被害者の問い合わせを処理した場合に,悪意のあるレコードが簡単に検索できるように,指示プロンプトを徐々に削除するプログレッシブ短縮戦略を提案する。
多様なエージェントにまたがる広範囲な実験により, MINJAがエージェント記憶に有効であることを実証した。
MINJAは最小限の要件で、任意のユーザがエージェントメモリに影響を与え、LLMエージェントの実践的なリスクを強調します。
関連論文リスト
- Unveiling Privacy Risks in LLM Agent Memory [40.26158509307175]
大規模言語モデル(LLM)エージェントは、様々な現実世界のアプリケーションでますます普及している。
デモのためにメモリモジュールにプライベートユーザエージェントインタラクションを格納することで、意思決定を強化する。
本稿では,メモリからプライベート情報を抽出するメモリ・エクストルーアクション・アタック(MEXTRA)を提案する。
論文 参考訳(メタデータ) (2025-02-17T19:55:53Z) - MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。
我々は新しいIPI防御であるMELONを提示する。
MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Towards Action Hijacking of Large Language Model-based Agent [39.19067800226033]
我々は、ブラックボックスエージェントシステムのアクションプランを操作するための新しいハイジャック攻撃であるNoneを紹介する。
提案手法は, 安全フィルタの平均バイパス率92.7%を達成した。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z) - Breaking ReAct Agents: Foot-in-the-Door Attack Will Get You In [5.65782619470663]
本稿では,直感的かつ効果的な手法でReActエージェントをどのように活用できるかを検討する。
実験の結果,間接的プロンプトインジェクション攻撃は,後続の悪意ある行為を行うエージェントの可能性を著しく高めることができることがわかった。
この脆弱性を軽減するために,エージェントが実行中の動作の安全性を再評価する簡単なリフレクション機構の実装を提案する。
論文 参考訳(メタデータ) (2024-10-22T12:24:41Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。