論文の概要: Defense effectiveness across architectural layers: a mechanistic evaluation of persistent memory attacks on stateful LLM agents
- arxiv url: http://arxiv.org/abs/2605.08442v1
- Date: Fri, 08 May 2026 20:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.647955
- Title: Defense effectiveness across architectural layers: a mechanistic evaluation of persistent memory attacks on stateful LLM agents
- Title(参考訳): アーキテクチャ層間の防御効果:ステートフルLLMエージェントに対する永続記憶攻撃の力学的評価
- Authors: Jun Wen Leong,
- Abstract要約: LLMエージェントに対する永続メモリ攻撃は、オープンソースモデルに対する高い攻撃成功率を達成する。
これらの攻撃では、RAGが取得したドキュメントを介して注入された悪意のある命令は永続的なメモリに格納され、後続のセッションで実行される。
我々は,9つのオープンソースモデルに対する遅延トリガー攻撃に対して,4つのアーキテクチャ層にまたがる6つの防御効果を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persistent memory attacks against LLM agents achieve high attack success rates against open-source models. In these attacks, malicious instructions injected via RAG-retrieved documents are stored in persistent memory and executed in later sessions. However, no systematic evaluation of defense effectiveness against this attack class exists. We evaluate six defenses across four architectural layers against delayed-trigger attacks on nine open-source models (5,040 runs, N=40 per condition). Four defenses fail at approximately baseline attack success rate: input-level filtering (Minimizer, Sanitizer) and retrieval-level filtering (RAG Sanitizer, RAG LLM Judge) achieve 88-89% ASR, statistically indistinguishable from the undefended baseline of 88.6%. Prompt Hardening partially fails at 77.8% ASR, with the reduction driven by two models at 0%: one genuine defense effect and one model-level refusal independent of the defense. The architectural explanation holds: input-level defenses cannot observe RAG-injected content, and retrieval-level classifiers are defeated by compliance-framed semantic masking. One defense, tool-gating at the memory layer (Memory Sandbox), reduces ASR to 0% for eight of nine models by removing the recall capability the attack requires. The exception inverts the defense entirely: a reasoning model that achieves 0% ASR under no defense via execution refusal inverts to 100% ASR under Memory Sandbox, because removing explicit recall forces the model onto the RAG pathway where its refusal mechanism does not activate. Memory Sandbox imposes zero utility cost in the absence of attack (BTCR = 100% across all conditions). These results provide the first systematic characterization of why each defense class fails against persistent memory attacks, enabling informed defense investment decisions.
- Abstract(参考訳): LLMエージェントに対する永続メモリ攻撃は、オープンソースモデルに対する高い攻撃成功率を達成する。
これらの攻撃では、RAGが取得したドキュメントを介して注入された悪意のある命令は永続的なメモリに格納され、後続のセッションで実行される。
しかし、この攻撃に対する防御効果の体系的評価は存在しない。
我々は,9つのオープンソースモデル(条件あたり5,040ラン,N=40ラン)に対する遅延トリガー攻撃に対して,4つのアーキテクチャ層にまたがる6つの防御効果を評価した。
入力レベルのフィルタリング (Minimizer, Sanitizer) と検索レベルのフィルタリング (RAG Sanitizer, RAG LLM Judge) の4つの防御は、88.6%の未定義のベースラインと統計的に区別できない88.9%のASRを達成した。
プロンプト・ハードニングは77.8%のASRで部分的に失敗し、2つのモデルによって0%に減少し、1つの真の防御効果と1つのモデルレベルの防御から独立して拒絶された。
アーキテクチャ上の説明では、入力レベルのディフェンスはRAGが注入したコンテンツを観察することができず、検索レベルの分類器はコンプライアンスベースのセマンティックマスキングによって破られる。
1つのディフェンス、メモリ層(メモリサンドボックス)でのツールゲーティングは、攻撃に必要なリコール機能を削除することで、9つのモデルのうち8つのモデルに対してASRを0%まで削減する。
例外は防御を完全に逆転する: 実行拒否によって0%のASRを達成する推論モデルは、メモリサンドボックスの下で100%のASRに逆戻りする。
メモリサンドボックスは攻撃がない場合(BTCR = 100%)にゼロユーティリティコストを課す。
これらの結果は、各防衛クラスが永続的メモリ攻撃に失敗した理由を初めて体系的に評価し、情報的防衛投資決定を可能にした。
関連論文リスト
- AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Quantization Blindspots: How Model Compression Breaks Backdoor Defenses [1.8646269335840449]
標準量子化パイプライン下でのバックドアディフェンスの動作について検討する。
INT8量子化は,攻撃成功率を99%以上に抑えながら,すべての評価された防御の検知率を0%に低下させることがわかった。
我々の結果は、防衛が一般的に評価される方法と、モデルが実際にどのようにデプロイされるかのミスマッチを明らかにします。
論文 参考訳(メタデータ) (2025-12-06T02:04:32Z) - Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems [11.812488957698038]
大規模言語モデル(LLM)は私たちの日常生活の多くの側面を変え、Webベースのサービスとして広く採用されています。
検索・拡張生成(RAG)は,外部知識ソースに根ざした応答を生成することによって,将来性のある方向として登場した。
近年の研究では、誤情報注入による知識腐敗攻撃など、RAGの脆弱性が実証されている。
本稿では,知識汚職に対する資源効率のよい防御機構であるRAGDefenderを紹介する。
論文 参考訳(メタデータ) (2025-11-03T06:39:58Z) - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - Evaluating the Robustness of the "Ensemble Everything Everywhere" Defense [90.7494670101357]
あらゆるものをアンサンブルすることは、敵の例に対する防御である。
この防御は敵の攻撃に対して堅牢ではないことを示す。
次に、標準的なアダプティブアタック技術を用いて、防御の堅牢な精度を低下させる。
論文 参考訳(メタデータ) (2024-11-22T10:17:32Z) - Protecting against simultaneous data poisoning attacks [14.893813906644153]
現在のバックドア防御法は、一度に1回の攻撃に対して評価される。
同時に実行されたデータ中毒攻撃は、複数のバックドアを単一のモデルに効果的にインストールできることを示す。
我々は,マルチアタック・セッティングに有効である新しいディフェンス,BaDLossを開発した。
論文 参考訳(メタデータ) (2024-08-23T16:57:27Z) - Hijacking Attacks against Neural Networks by Analyzing Training Data [21.277867143827812]
CleanSheetは、新しいモデルハイジャック攻撃で、モデルをトレーニングする相手を必要とせずに、バックドア攻撃のハイパフォーマンスを得る。
CleanSheetはトレーニングデータから発生したタンパーの脆弱性を利用する。
CIFAR-100では平均的な攻撃成功率(ASR)が97.5%、GTSRBでは92.4%である。
論文 参考訳(メタデータ) (2024-01-18T05:48:56Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。