論文の概要: MemPot: Defending Against Memory Extraction Attack with Optimized Honeypots
- arxiv url: http://arxiv.org/abs/2602.07517v1
- Date: Sat, 07 Feb 2026 12:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.661242
- Title: MemPot: Defending Against Memory Extraction Attack with Optimized Honeypots
- Title(参考訳): MemPot: 最適化ハニーポットによるメモリ抽出攻撃の回避
- Authors: Yuhao Wang, Shengfang Zhai, Guanghao Jin, Yinpeng Dong, Linyi Yang, Jiaheng Zhang,
- Abstract要約: 我々はメモリ抽出攻撃に対する最初の理論的に検証された防御フレームワークであるMemPotを提案する。
MemPotは攻撃者の検索確率を最大化するトラップ文書を生成する。
MemPotは、追加のオンライン推論遅延を発生させ、標準タスクでエージェントのユーティリティを保存する。
- 参考スコア(独自算出の注目度): 44.883193164169256
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Model (LLM)-based agents employ external and internal memory systems to handle complex, goal-oriented tasks, yet this exposes them to severe extraction attacks, and effective defenses remain lacking. In this paper, we propose MemPot, the first theoretically verified defense framework against memory extraction attacks by injecting optimized honeypots into the memory. Through a two-stage optimization process, MemPot generates trap documents that maximize the retrieval probability for attackers while remaining inconspicuous to benign users. We model the detection process as Wald's Sequential Probability Ratio Test (SPRT) and theoretically prove that MemPot achieves a lower average number of sampling rounds compared to optimal static detectors. Empirically, MemPot significantly outperforms state-of-the-art baselines, achieving a 50% improvement in detection AUROC and an 80% increase in True Positive Rate under low False Positive Rate constraints. Furthermore, our experiments confirm that MemPot incurs zero additional online inference latency and preserves the agent's utility on standard tasks, verifying its superiority in safety, harmlessness, and efficiency.
- Abstract(参考訳): LLM(Large Language Model)ベースのエージェントは、複雑な目標指向タスクを処理するために、外部と内部のメモリシステムを使用するが、これは厳しい抽出攻撃に晒され、効果的な防御機能が欠如している。
本稿では,メモリに最適化されたミツバチを注入することにより,メモリ抽出攻撃に対する最初の理論的に検証された防御フレームワークであるMemPotを提案する。
2段階の最適化プロセスを通じて、MemPotは攻撃者の検索確率を最大化するトラップ文書を生成する。
我々は、検出過程をウォルドの逐次確率比検定(SPRT)としてモデル化し、MemPotが最適な静的検出器と比較してサンプリングラウンドの平均値が低いことを理論的に証明する。
実証的には、MemPotは最先端のベースラインを大きく上回り、AUROCの検出において50%改善し、偽陽性率の低い制約下では80%の正陽性率を達成する。
さらに,本実験では,MemPotがオンライン推論遅延をゼロにし,標準タスクにおけるエージェントの効用を保ち,安全性,無害性,効率性を検証した。
関連論文リスト
- TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching [82.13572707265513]
ファインチューニングは、下流タスクに大規模言語モデルを適用するためのデファクトアプローチとみなされてきた。
TokenSeekは,様々なトランスフォーマーモデルに対する汎用的なプラグインソリューションで,インスタンス認識型トークン探索と破棄を実現する。
論文 参考訳(メタデータ) (2026-01-27T15:58:36Z) - Memory Poisoning Attack and Defense on Memory Based LLM-Agents [3.7127635602605014]
永続メモリを備えた大規模言語モデルエージェントは、メモリ中毒攻撃に対して脆弱である。
近年の研究では、MINJA (Memory Injection Attack) が95%以上のインジェクション成功率を達成した。
本研究は,記憶障害攻撃と防御の系統的評価を通じてギャップに対処する。
論文 参考訳(メタデータ) (2026-01-09T03:26:10Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Enhancing Adversarial Robustness via Score-Based Optimization [22.87882885963586]
敵対的攻撃は、わずかな摂動を導入することによって、ディープニューラルネットワーク分類器を誤認する可能性がある。
ScoreOptと呼ばれる新しい対向防御方式を導入し、テスト時に対向サンプルを最適化する。
実験の結果,本手法は性能とロバスト性の両方において,既存の敵防御よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-10T03:59:42Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。