論文の概要: ADAM: A Systematic Data Extraction Attack on Agent Memory via Adaptive Querying
- arxiv url: http://arxiv.org/abs/2604.09747v1
- Date: Fri, 10 Apr 2026 07:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.652061
- Title: ADAM: A Systematic Data Extraction Attack on Agent Memory via Adaptive Querying
- Title(参考訳): ADAM: アダプティブクエリによるエージェントメモリの系統的データ抽出攻撃
- Authors: Xingyu Lyu, Jianfeng He, Ning Wang, Yidan Hu, Tao Li, Danjue Chen, Shixiong Li, Yimin Chen,
- Abstract要約: 本稿では,被害者の記憶の分布を推定する新たなプライバシ攻撃ADAMを提案する。
我々の攻撃は最先端の攻撃よりも大幅に優れ、最大100%のASRを達成した。
- 参考スコア(独自算出の注目度): 18.047579533992252
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Model (LLM) agents have achieved rapid adoption and demonstrated remarkable capabilities across a wide range of applications. To improve reasoning and task execution, modern LLM agents would incorporate memory modules or retrieval-augmented generation (RAG) mechanisms, enabling them to further leverage prior interactions or external knowledge. However, such a design also introduces a group of critical privacy vulnerabilities: sensitive information stored in memory can be leaked through query-based attacks. Although feasible, existing attacks often achieve only limited performance, with low attack success rates (ASR). In this paper, we propose ADAM, a novel privacy attack that features data distribution estimation of a victim agent's memory and employs an entropy-guided query strategy for maximizing privacy leakage. Extensive experiments demonstrate that our attack substantially outperforms state-of-the-art ones, achieving up to 100% ASRs. These results thus underscore the urgent need for robust privacy-preserving methods for current LLM agents.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは急速に採用され、広範囲のアプリケーションで顕著な機能を示した。
推論とタスク実行を改善するため、現代のLLMエージェントはメモリモジュールや検索拡張生成(RAG)機構を取り入れ、以前のインタラクションや外部知識をさらに活用する。
しかし、このような設計では、重要なプライバシー上の脆弱性のグループも導入されている。メモリに格納された機密情報は、クエリベースの攻撃によって漏洩する可能性がある。
実行可能ではあるが、既存の攻撃は限られた性能しか達成せず、攻撃成功率(ASR)は低い。
本稿では,被害者のメモリのデータ分散を特徴とする新たなプライバシ攻撃ADAMを提案し,プライバシー漏洩の最大化にエントロピー誘導型クエリ戦略を用いる。
大規模な実験により、我々の攻撃は最先端の攻撃よりも大幅に優れ、最大100%のASRを達成した。
これらの結果は、現在のLLMエージェントに対する堅牢なプライバシ保護手法の緊急の必要性を浮き彫りにした。
関連論文リスト
- ER-MIA: Black-Box Adversarial Memory Injection Attacks on Long-Term Memory-Augmented Large Language Models [15.04025544838879]
大規模言語モデル(LLM)は、有限コンテキストウィンドウを克服するために長期記憶システムで拡張されつつある。
最近の研究では、メモリが追加の攻撃面を提供するため、LSMはより脆弱になる。
本研究は,類似性に基づく検索機構をターゲットにしたブラックボックス対向性メモリインジェクション攻撃の最初の系統的研究である。
論文 参考訳(メタデータ) (2026-02-17T04:19:45Z) - "Someone Hid It": Query-Agnostic Black-Box Attacks on LLM-Based Retrieval [44.49026453970601]
大規模言語モデル(LLM)は,検索システムにおいて有効なバックボーンとして機能している。
近年の研究では、LDMをベースとしたRetrievalは敵の攻撃に弱いことが示されている。
ゼロショットサロゲートLPMをベースとした転送可能なインジェクショントークンを生成する実用的なブラックボックス攻撃法を提案する。
論文 参考訳(メタデータ) (2026-01-30T22:28:04Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - LLM-Based User Simulation for Low-Knowledge Shilling Attacks on Recommender Systems [28.559223475725137]
我々は,Large Language Model(LLM)ベースのエージェントを利用して,低知識かつ高インパクトなシリング攻撃を行う新しいフレームワークであるAgent4SRを紹介する。
Agent4SRは、対向的なインタラクションを編成し、アイテムを選択し、評価を割り当て、レビューを作成し、行動の妥当性を維持しながら、現実的なユーザ動作をシミュレートする。
以上の結果から,レコメンデーションシステムにおける防衛強化の必要性を浮き彫りにして,LSMを駆使したエージェントによる新たな緊急脅威の出現が示唆された。
論文 参考訳(メタデータ) (2025-05-18T04:40:34Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Memory Injection Attacks on LLM Agents via Query-Only Interaction [49.14715983268449]
我々は,攻撃者がエージェントのメモリバンクを直接変更できると仮定することなく,新たなメモリインジェクション攻撃(MINJA)を提案する。
攻撃者は、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入する。
MINJAは、任意のユーザがエージェントメモリに影響を与え、リスクを強調します。
論文 参考訳(メタデータ) (2025-03-05T17:53:24Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。