論文の概要: MEMSAD: Gradient-Coupled Anomaly Detection for Memory Poisoning in Retrieval-Augmented Agents
- arxiv url: http://arxiv.org/abs/2605.03482v1
- Date: Tue, 05 May 2026 08:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.833762
- Title: MEMSAD: Gradient-Coupled Anomaly Detection for Memory Poisoning in Retrieval-Augmented Agents
- Title(参考訳): MEMSAD:Retrieval-Augmented Agentにおけるメモリポジショニングのためのグラディエント結合異常検出
- Authors: Ishrith Gowda,
- Abstract要約: 検索強化エージェントに対するメモリ中毒攻撃を,統合評価フレームワークを用いたStackelbergゲームとして定式化する。
ASR-R: 0.25〜1.00$) による攻撃成功度を4倍に向上させる。
私たちの主な貢献は、勾配結合に接地したキャリブレーションに基づく防御であるMEMSADである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persistent external memory enables LLM agents to maintain context across sessions, yet its security properties remain formally uncharacterized. We formalize memory poisoning attacks on retrieval-augmented agents as a Stackelberg game with a unified evaluation framework spanning three attack classes with escalating access assumptions. Correcting an evaluation protocol inconsistency in the triggered-query specification of Chen et al. (2024), we show faithful evaluation increases measured attack success by $4\times$ (ASR-R: $0.25 \to 1.00$). Our primary contribution is MEMSAD (Semantic Anomaly Detection), a calibration-based defense grounded in a gradient coupling theorem: under encoder regularity, the anomaly score gradient and the retrieval objective gradient are provably identical, so any continuous perturbation that reduces detection risk necessarily degrades retrieval rank. This coupling yields a certified detection radius guaranteeing correct classification regardless of adversary strategy. We prove minimax optimality via Le Cam's method, showing any threshold detector requires $Ω(1/ρ^2)$ calibration samples and MEMSAD achieves this up to $\log(1/δ)$ factors. We further derive online regret bounds for rolling calibration at rate $O(σ^{2/3}Δ^{1/3})$, and formally characterize a discrete synonym-invariance loophole that marks the boundary of what continuous-space defenses can guarantee. Experiments on a $3 \times 5$ attack-defense matrix with bootstrap confidence intervals, Bonferroni-corrected hypothesis tests, and Clopper-Pearson validation ($n=1{,}000$) confirm: composite defenses achieve TPR $= 1.00$, FPR $= 0.00$ across all attacks, while synonym substitution evades detection at $Δ$ ASR-R $\approx 0$, exposing a gap existing embedding-based defenses cannot close.
- Abstract(参考訳): 永続的な外部メモリにより、LLMエージェントはセッション間のコンテキストを維持することができるが、そのセキュリティ特性は公式には文字化されていない。
検索強化エージェントに対するメモリ中毒攻撃を,アクセス仮定をエスカレートした3つの攻撃クラスにまたがる統一評価フレームワークで,スタックルバーグゲームとして定式化する。
Chen et al (2024) のトリガクエリ仕様における評価プロトコルの不整合を補正し、測定された攻撃成功を4\times$ (ASR-R: $0.25 \to 1.00$) で改善することを示す。
エンコーダの正規性の下では、異常スコア勾配と検索対象勾配は確実に同一であり、検出リスクを低減する連続的摂動は、必ずしも検索ランクを低下させる。
この結合は、敵の戦略にかかわらず正しい分類を保証する認証検出半径を得る。
我々はル・カム法を用いて最小値最適性を証明し、しきい値検出器が$Ω(1/ρ^2)$キャリブレーションサンプルを必要とし、MEMSADは最大$\log(1/δ)$因子を達成することを示した。
さらに、オンラインのリフレクション境界を$O(σ^{2/3}Δ^{1/3})$で引き起こし、連続空間防衛が保証できる境界を示す離散同義共分散ループを正式に特徴づける。
ブートストラップの信頼区間を持つ3ドルの攻撃防御マトリックス、ボンフェロニの補正された仮説テスト、クロッパー・ピアソンの検証(n=1{,}000$)による実験: 複合防御はTPR$=1.00$, FPR$=000$を達成し、同義語置換は$$Δ$ASR-R $\approx 0$を回避し、既存の埋め込みベースの防御のギャップを閉じることができない。
関連論文リスト
- Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - EdgeDetect: Importance-Aware Gradient Compression with Homomorphic Aggregation for Federated Intrusion Detection [0.0]
フェデレートラーニング(FL)は、生データ交換なしで協調的な侵入検知を可能にする。
従来のFLは、完全精度の伝送から高い通信オーバーヘッドを発生させる。
本稿では,プライバシーに配慮した6G-IoT環境用フェデレーションIDSであるEdgeDetectを提案する。
論文 参考訳(メタデータ) (2026-04-16T06:16:14Z) - VeriX-Anon: A Multi-Layered Framework for Mathematically Verifiable Outsourced Target-Driven Data Anonymization [0.0]
VeriX-Anonは、オープンソースのターゲット駆動k匿名化のための多層検証フレームワークである。
認証決定木のメルクル式ハッシュによる決定論的検証、ランダムフォレスト決定境界付近の境界センチネルによる確率的検証、および暗号識別子による正確な重複性ツインズの組み合わせである。
12のシナリオのうち11の偏差を正しく検出した。
論文 参考訳(メタデータ) (2026-04-14T08:22:18Z) - Convergence of Byzantine-Resilient Gradient Tracking via Probabilistic Edge Dropout [1.3902537392439644]
任意の相手メッセージを送信するビザンティンエージェントを用いたネットワーク上での分散最適化について検討する。
確率的エッジドロップアウトと漏洩積分(GT-PD-L)を用いたemphGradient Trackingを提案する。
GT-PD-Lは、盗難攻撃下での座標平均を最大4.3%上回る。
論文 参考訳(メタデータ) (2026-04-01T03:55:42Z) - Robustness, Cost, and Attack-Surface Concentration in Phishing Detection [0.0]
設計されたウェブサイト上に構築されたフィッシング検出器は、i.d.評価の下でほぼ完璧な精度で機能する。
我々はこのギャップを、明示的な攻撃予算の下で個別の単調な特徴編集をモデル化するコスト認識回避フレームワークを通じて研究する。
論文 参考訳(メタデータ) (2026-03-19T17:53:32Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Spectral Sentinel: Scalable Byzantine-Robust Decentralized Federated Learning via Sketched Random Matrix Theory on Blockchain [0.0]
ビザンチンのクライアントは、不均一な(Non-IID)データの下での濃度勾配を中毒する。
本稿では,ビザンチン検出・集約フレームワークであるSpectral Sentinelを提案する。
Polygonネットワーク上でブロックチェーンを統合することで,完全なシステムを実現しています。
論文 参考訳(メタデータ) (2025-12-14T09:43:03Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z) - Detection as Regression: Certified Object Detection by Median Smoothing [50.89591634725045]
この研究は、ランダム化平滑化による認定分類の最近の進歩によって動機付けられている。
我々は、$ell$-bounded攻撃に対するオブジェクト検出のための、最初のモデル非依存、トレーニング不要、認定された防御条件を得る。
論文 参考訳(メタデータ) (2020-07-07T18:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。