論文の概要: Memory Poisoning Attack and Defense on Memory Based LLM-Agents
- arxiv url: http://arxiv.org/abs/2601.05504v2
- Date: Mon, 12 Jan 2026 03:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.573521
- Title: Memory Poisoning Attack and Defense on Memory Based LLM-Agents
- Title(参考訳): メモリベースのLCM-Agentによるメモリポジショニング攻撃と防御
- Authors: Balachandra Devarangadi Sunil, Isheeta Sinha, Piyush Maheshwari, Shantanu Todmal, Shreyan Mallik, Shuchi Mishra,
- Abstract要約: 永続メモリを備えた大規模言語モデルエージェントは、メモリ中毒攻撃に対して脆弱である。
近年の研究では、MINJA (Memory Injection Attack) が95%以上のインジェクション成功率を達成した。
本研究は,記憶障害攻撃と防御の系統的評価を通じてギャップに対処する。
- 参考スコア(独自算出の注目度): 3.7127635602605014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model agents equipped with persistent memory are vulnerable to memory poisoning attacks, where adversaries inject malicious instructions through query only interactions that corrupt the agents long term memory and influence future responses. Recent work demonstrated that the MINJA (Memory Injection Attack) achieves over 95 % injection success rate and 70 % attack success rate under idealized conditions. However, the robustness of these attacks in realistic deployments and effective defensive mechanisms remain understudied. This work addresses these gaps through systematic empirical evaluation of memory poisoning attacks and defenses in Electronic Health Record (EHR) agents. We investigate attack robustness by varying three critical dimensions: initial memory state, number of indication prompts, and retrieval parameters. Our experiments on GPT-4o-mini, Gemini-2.0-Flash and Llama-3.1-8B-Instruct models using MIMIC-III clinical data reveal that realistic conditions with pre-existing legitimate memories dramatically reduce attack effectiveness. We then propose and evaluate two novel defense mechanisms: (1) Input/Output Moderation using composite trust scoring across multiple orthogonal signals, and (2) Memory Sanitization with trust-aware retrieval employing temporal decay and pattern-based filtering. Our defense evaluation reveals that effective memory sanitization requires careful trust threshold calibration to prevent both overly conservative rejection (blocking all entries) and insufficient filtering (missing subtle attacks), establishing important baselines for future adaptive defense mechanisms. These findings provide crucial insights for securing memory-augmented LLM agents in production environments.
- Abstract(参考訳): 永続メモリを備えた大規模言語モデルエージェントは、長期記憶を損なうクエリのみを通じて悪意ある命令を注入し、将来の応答に影響を与えるメモリ中毒攻撃に対して脆弱である。
近年の研究では, MINJA(メモリインジェクションアタック)が95%以上のインジェクション成功率, 70%以上の攻撃成功率を達成した。
しかし、現実的な展開や効果的な防御機構におけるこれらの攻撃の堅牢性はいまだ検討されていない。
本研究は,Electronic Health Record(EHR)エージェントにおける記憶障害攻撃と防御の系統的評価を通じて,これらのギャップに対処する。
本稿では,初期記憶状態,指示プロンプト数,検索パラメータの3つの重要な次元でアタックロバスト性について検討する。
MIMIC-III 臨床データを用いた GPT-4o-mini, Gemini-2.0-Flash および Llama-3.1-8B-Instruct モデルによる実験により, 既往の正統記憶を持つ現実的な条件が攻撃効果を劇的に低下させることが明らかとなった。
そこで我々は,(1)複数の直交信号間での複合信頼スコアを用いた入力/出力モデレーション,(2)時間的減衰とパターンに基づくフィルタリングを用いた信頼認識検索によるメモリサニタイゼーションの2つの新しい防御機構を提案し,評価する。
防御評価の結果, 有効メモリ衛生化には, 過度に保守的な拒絶(全エントリのブロック)とフィルタリングの不十分(微妙な攻撃の欠如)を防ぎ, 将来の適応防御機構の重要な基盤線を確立するために, 慎重な信頼しきい値校正が必要であることが明らかとなった。
これらの知見は, メモリ拡張LDMエージェントを生産環境に確保するための重要な知見となる。
関連論文リスト
- A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory [31.673865459672285]
大規模言語モデル(LLM)エージェントは、過去のインタラクションから学習するためにメモリを使用する。
敵は、エージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
A-MemGuard は LLM エージェントメモリのための最初のプロアクティブな防御フレームワークである。
論文 参考訳(メタデータ) (2025-09-29T16:04:15Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - Swallowing the Poison Pills: Insights from Vulnerability Disparity Among LLMs [3.7913442178940318]
現代の大型言語モデル (LLM) は毒薬攻撃の重大な脆弱性を示す。
我々はこれらの攻撃がLLMの固有のアーキテクチャ特性を悪用していることを実証する。
私たちの研究は、セキュリティの脅威と診断ツールとして毒薬を確立しています。
論文 参考訳(メタデータ) (2025-02-23T06:34:55Z) - Game-Theoretic Defenses for Robust Conformal Prediction Against Adversarial Attacks in Medical Imaging [12.644923600594176]
敵対的攻撃は、ディープラーニングモデルの信頼性と安全性に重大な脅威をもたらす。
本稿では,共形予測とゲーム理論の防衛戦略を統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-07T02:20:04Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - RECESS Vaccine for Federated Learning: Proactive Defense Against Model Poisoning Attacks [20.55681622921858]
モデル中毒は、フェデレートラーニング(FL)の適用を著しく阻害する
本研究では,モデル中毒に対するRECESSという新しいプロアクティブ・ディフェンスを提案する。
各イテレーションをスコアする従来の方法とは異なり、RECESSはクライアントのパフォーマンス相関を複数のイテレーションで考慮し、信頼スコアを見積もる。
論文 参考訳(メタデータ) (2023-10-09T06:09:01Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。