論文の概要: Spore: Efficient and Training-Free Privacy Extraction Attack on LLMs via Inference-Time Hybrid Probing
- arxiv url: http://arxiv.org/abs/2604.23711v1
- Date: Sun, 26 Apr 2026 13:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.514761
- Title: Spore: Efficient and Training-Free Privacy Extraction Attack on LLMs via Inference-Time Hybrid Probing
- Title(参考訳): Spore: 推論時間ハイブリッドプローブによるLLMの効率的かつ訓練不要なプライバシ抽出攻撃
- Authors: Yu Cui, Ruiqing Yue, Hang Fu, Sicheng Pan, Zhuoyu Sun, Baohan Huang, Haibin Zhang, Cong Zuo, Licheng Wang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)エージェントメモリを対象とした,トレーニング不要なプライバシ抽出攻撃を提案する。
textscSporeはブラックボックスとグレーボックスの両方の設定に対応している。
textscSporeは、検出と強力な安全性アライメントの両方を一貫してバイパスする。
- 参考スコア(独自算出の注目度): 15.881692298439637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the wide adoption of personal AI assistants such as OpenClaw, privacy leakage in user interaction contexts with large language model (LLM) agents has become a critical issue. Existing privacy attacks against LLMs primarily target training data, while research on inference-time contextual privacy risks in LLM agent memory remains limited. Moreover, prior methods often incur high attack costs, requiring multiple queries or relying on white-box assumptions, which limits their practicality in real-world deployments. To address these issues, we propose a training-free privacy extraction attack targeting LLM agent memory, which we name \textsc{Spore}. \textsc{Spore} is compatible with both black-box and gray-box settings. In the black-box setting, \textsc{Spore} can efficiently extract a small candidate set via a single query to recover the original private information. In the gray-box setting, \textsc{Spore} allows the attacker to leverage multi-ranked tokens for more accurate and faster privacy extraction. We provide an information-theoretic analysis of \textsc{Spore} and show that it achieves high query efficiency with substantial per query information leakage. Experiments on multiple frontier LLMs show that \textsc{Spore} outperforms attack success rate over existing state-of-the-art (SOTA) schemes. It also maintains low attack cost and remains stable across different model parameter settings. We further evaluate the robustness of \textsc{Spore} against existing defense mechanisms. Our results show that \textsc{Spore} consistently bypasses both detection and strong safety alignment, demonstrating resilient performance in diverse defensive settings and real-world safety threats.
- Abstract(参考訳): OpenClawのようなパーソナルAIアシスタントの普及により、大きな言語モデル(LLM)エージェントとのユーザインタラクションコンテキストにおけるプライバシリークが重要な問題となっている。
LLMに対する既存のプライバシ攻撃は主にトレーニングデータをターゲットにしているが、LLMエージェントメモリにおける推論時コンテキストプライバシリスクの研究は限られている。
さらに、事前の手法は、複数のクエリを必要とする場合や、ホワイトボックスの仮定に依存する場合など、しばしば高い攻撃コストを発生させる。
これらの問題に対処するため、LLMエージェントメモリをターゲットとしたトレーニング不要なプライバシ抽出攻撃を提案し、これをtextsc{Spore} と呼ぶ。
\textsc{Spore} はブラックボックスとグレーボックスの両方の設定と互換性がある。
ブラックボックス設定では、 \textsc{Spore} は単一のクエリを通して小さな候補を効率的に抽出し、元のプライベート情報を復元する。
グレーボックス設定では、 \textsc{Spore} は攻撃者がより正確で高速なプライバシ抽出のためにマルチランクトークンを利用することができる。
本稿では,textsc{Spore} の情報理論解析を行い,クエリ情報リーク毎に高いクエリ効率が得られることを示す。
複数のフロンティア LLM の実験では,既存のSOTA (State-of-the-art) スキームよりも,‘textsc{Spore} が攻撃成功率を上回っている。
攻撃コストも低く、さまざまなモデルパラメータ設定で安定している。
さらに,既存の防御機構に対するtextsc{Spore}の堅牢性を評価する。
以上の結果から, <textsc{Spore} は検出と強い安全性の両面を一貫してバイパスし, 多様な防御環境におけるレジリエントな性能と現実世界の安全性の脅威を示す。
関連論文リスト
- Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs [61.15237978606501]
大規模言語モデルは、ユーザ生成テキストからプライベートなユーザー属性を推測することができる。
既存の匿名化ベースの防御は粗く、プライバシーを優先する要素を匿名化する際に単語レベルの精度が欠如している。
細粒度匿名化(TRACE)と推論防止最適化(RPS)を組み合わせた統合防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T03:37:50Z) - PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文 参考訳(メタデータ) (2025-11-20T10:25:45Z) - Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - VortexPIA: Indirect Prompt Injection Attack against LLMs for Efficient Extraction of User Privacy [22.037235521470468]
大規模言語モデル(LLM)は、会話型AI(CAI)に広くデプロイされている。
近年の研究では、LLMベースのCAIを操作して、人間から個人情報を抽出し、重大なセキュリティ上の脅威を生じさせることが示されている。
ブラックボックス設定下でのプライバシー抽出を誘導する新しい間接的インジェクション攻撃であるtextscVortexPIAを提案する。
論文 参考訳(メタデータ) (2025-10-05T15:58:55Z) - Multi-Stage Prompt Inference Attacks on Enterprise LLM Systems [18.039444159491733]
エンタープライズ環境にデプロイされる大規模言語モデル(LLM)は、新たなセキュリティ課題に直面している。
敵同士が連携して、徐々に機密データを抽出するように仕向ける。
企業LLMコンテキストにおける多段階的プロンプト推論攻撃の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-07-21T13:38:12Z) - SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:23:56Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage [78.33839735526769]
LeakAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
我々のフレームワークは、敵のプロンプトを生成するための攻撃エージェントとして強化学習を通じてオープンソースのLLMを訓練する。
我々は,LeakAgentが既存のルールベースのデータ抽出手法と,システムリーク時の自動手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。