Fugu-MT 論文翻訳(概要): A Practical Memory Injection Attack against LLM Agents

論文の概要: A Practical Memory Injection Attack against LLM Agents

arxiv url: http://arxiv.org/abs/2503.03704v1
Date: Wed, 05 Mar 2025 17:53:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:41.237385
Title: A Practical Memory Injection Attack against LLM Agents
Title（参考訳）: LLMエージェントに対する実用的なメモリインジェクション攻撃
Authors: Shen Dong, Shaocheng Xu, Pengfei He, Yige Li, Jiliang Tang, Tianming Liu, Hui Liu, Zhen Xiang,
Abstract要約: MINJAは、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入することができる。 MINJAは、任意のユーザがエージェントメモリに影響を与え、LLMエージェントの実践的なリスクを強調します。
参考スコア（独自算出の注目度）: 46.42216440184125
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agents based on large language models (LLMs) have demonstrated strong capabilities in a wide range of complex, real-world applications. However, LLM agents with a compromised memory bank may easily produce harmful outputs when the past records retrieved for demonstration are malicious. In this paper, we propose a novel Memory INJection Attack, MINJA, that enables the injection of malicious records into the memory bank by only interacting with the agent via queries and output observations. These malicious records are designed to elicit a sequence of malicious reasoning steps leading to undesirable agent actions when executing the victim user's query. Specifically, we introduce a sequence of bridging steps to link the victim query to the malicious reasoning steps. During the injection of the malicious record, we propose an indication prompt to guide the agent to autonomously generate our designed bridging steps. We also propose a progressive shortening strategy that gradually removes the indication prompt, such that the malicious record will be easily retrieved when processing the victim query comes after. Our extensive experiments across diverse agents demonstrate the effectiveness of MINJA in compromising agent memory. With minimal requirements for execution, MINJA enables any user to influence agent memory, highlighting practical risks of LLM agents.
Abstract（参考訳）: 大規模言語モデル(LLM)に基づくエージェントは、幅広い複雑な実世界のアプリケーションで強力な機能を示している。しかし、不正なメモリバンクを持つLCMエージェントは、デモのために検索された過去のレコードが悪意がある場合に、有害な出力を容易に生成することができる。本稿では,メモリバンクに悪意のあるレコードを注入し,クエリと出力観察のみでエージェントと対話できる新しいメモリインジェクションアタック(MINJA)を提案する。これらの悪意のあるレコードは、被害者のクエリを実行する際に、望ましくないエージェントアクションにつながる悪意のある推論手順を導き出すように設計されている。具体的には、被害者のクエリを悪意のある推論ステップにリンクするためのブリッジング手順を紹介します。悪意のある記録を注入する際、エージェントが設計したブリッジングステップを自律的に生成するための指示プロンプトを提案する。また,被害者の問い合わせを処理した場合に,悪意のあるレコードが簡単に検索できるように,指示プロンプトを徐々に削除するプログレッシブ短縮戦略を提案する。多様なエージェントにまたがる広範囲な実験により, MINJAがエージェント記憶に有効であることを実証した。 MINJAは最小限の要件で、任意のユーザがエージェントメモリに影響を与え、LLMエージェントの実践的なリスクを強調します。

関連論文リスト

TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [71.81906608221038]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文参考訳（メタデータ） (2025-07-18T06:23:31Z)
Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents During Task Execution [7.2497315292753415]
本稿では,タスク実行中に観察された個人データをツールコールエージェントが漏出させる要因について検討する。架空の銀行エージェントを使用して、データフローベースの攻撃を開発し、エージェントセキュリティの最近のベンチマークであるAgentDojoに統合します。
論文参考訳（メタデータ） (2025-06-01T15:48:06Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning [17.448966928905733]
外部ツールを備えた大規模言語モデル(LLM)エージェントは、複雑なタスクを扱うためにますます強力になっている。 LLMエージェント用に設計された統一レッドチーム化フレームワークであるUDoraを,エージェント自身の推論プロセスを動的に活用し,悪意のある動作に強制する。
論文参考訳（メタデータ） (2025-02-28T21:30:28Z)
Unveiling Privacy Risks in LLM Agent Memory [40.26158509307175]
大規模言語モデル(LLM)エージェントは、様々な現実世界のアプリケーションでますます普及している。デモのためにメモリモジュールにプライベートユーザエージェントインタラクションを格納することで、意思決定を強化する。本稿では,メモリからプライベート情報を抽出するメモリ・エクストルーアクション・アタック(MEXTRA)を提案する。
論文参考訳（メタデータ） (2025-02-17T19:55:53Z)
MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。我々は新しいIPI防御であるMELONを提示する。 MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
Towards Action Hijacking of Large Language Model-based Agent [39.19067800226033]
我々は、ブラックボックスエージェントシステムのアクションプランを操作するための新しいハイジャック攻撃であるNoneを紹介する。提案手法は, 安全フィルタの平均バイパス率92.7%を達成した。
論文参考訳（メタデータ） (2024-12-14T12:11:26Z)
Breaking ReAct Agents: Foot-in-the-Door Attack Will Get You In [5.65782619470663]
本稿では,直感的かつ効果的な手法でReActエージェントをどのように活用できるかを検討する。実験の結果,間接的プロンプトインジェクション攻撃は,後続の悪意ある行為を行うエージェントの可能性を著しく高めることができることがわかった。この脆弱性を軽減するために,エージェントが実行中の動作の安全性を再評価する簡単なリフレクション機構の実装を提案する。
論文参考訳（メタデータ） (2024-10-22T12:24:41Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文参考訳（メタデータ） (2024-07-17T17:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。