論文の概要: PIIGuard: Mitigating PII Harvesting under Adversarial Sanitization
- arxiv url: http://arxiv.org/abs/2605.03129v1
- Date: Mon, 04 May 2026 20:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.635695
- Title: PIIGuard: Mitigating PII Harvesting under Adversarial Sanitization
- Title(参考訳): PIIGuard:敵対的衛生下でのPIIハーベスティングの緩和
- Authors: Mingshuo Liu, Yiwei Zha, Min Chen,
- Abstract要約: PIIGuardは、間接的なプロンプトインジェクションを保護メカニズムとして再利用するWebページレベルのディフェンスである。
PIIGuardは、ルールベースのリークスコア、進化的突然変異、最終判断に基づく復元可能性評価を用いて、断片テキストと挿入位置を検索する。
- 参考スコア(独自算出の注目度): 2.581858346414243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Browsing-enabled LLM assistants can fetch webpages and answer contact-seeking queries, creating a practical channel for scraping contact-style personally identifiable information (PII) from public pages. Many prior defenses are deployed at the model, service, or agent layer rather than at the webpage itself, leaving ordinary page owners with limited deployable options. We present PIIGuard, a webpage-level defense that repurposes indirect prompt injection as a protective mechanism: the page owner embeds optimized hidden HTML fragments that steer the model away from verbatim or reconstructible disclosure of contact PII. PIIGuard searches over fragment text and insertion position using rule-based leakage scoring, evolutionary mutation, and final judge-based recoverability assessment. In direct-HTML evaluation on three target models (GPT-5.4-nano, Claude-haiku-4.5, and DeepSeek-chat(latest v3.2)), PIIGuard achieves at least 97.0% defense success rate under both rule-based and judge-based leakage evaluation, often reaching 100.0%, while preserving benign same-page QA utility. We further evaluate two harder settings: public-URL browsing and attacker-side LLM sanitization of fetched webpage. These results show that page-side defensive fragments can remain effective in deployment for some model-position pairs, but robustness varies substantially across browsing interfaces and sanitizer prompts. Overall, PIIGuard demonstrates that page owners can use page-side fragments as a practical mitigation for web-grounded PII leakage.
- Abstract(参考訳): ブラウザ対応のLLMアシスタントは、Webページを取得してコンタクト検索クエリに応答し、公開ページから連絡先スタイルの個人識別情報(PII)をスクラップする実用的なチャネルを作成する。
多くの事前防御は、Webページ自体ではなく、モデル、サービス、エージェント層にデプロイされ、通常のページ所有者には限定的なデプロイ可能なオプションが残されている。
ページオーナが最適化された隠れHTMLフラグメントを埋め込み、モデルが冗長または再構成可能なコンタクトPIIの開示から遠ざかる。
PIIGuardは、ルールベースのリークスコア、進化的突然変異、最終判断に基づく復元可能性評価を用いて、断片テキストと挿入位置を検索する。
3つの目標モデル(GPT-5.4-nano、Claude-haiku-4.5、DeepSeek-chat(latest v3.2))の直接HTML評価では、PIIGuardはルールベースと審査ベースのリーク評価の両方で少なくとも97.0%の防衛成功率を達成し、しばしば100.0%に達する。
さらに、公開URLブラウジングと、フェッチしたWebページの攻撃側LCMサニタイズという2つの難しい設定を評価した。
これらの結果から、ページ側の防御フラグメントは、いくつかのモデル配置ペアの配置に有効であるが、ロバスト性はブラウジングインターフェースやサニタイザプロンプトによって大きく異なることが示された。
PIIGuardはページのオーナーがページサイドのフラグメントをWeb上のPIIリークを軽減できることを示した。
関連論文リスト
- WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。
システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。
本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文 参考訳(メタデータ) (2026-04-14T04:50:35Z) - PlanGuard: Defending Agents against Indirect Prompt Injection via Planning-based Consistency Verification [1.7904458681854372]
PlanGuardは、コンテキスト分離の原則に基づいた、トレーニング不要の防御フレームワークである。
PlanGuardは攻撃を効果的に中和し、アタック成功率(ASR)を72.8%から0%に下げる。
論文 参考訳(メタデータ) (2026-04-11T09:59:46Z) - Clouding the Mirror: Stealthy Prompt Injection Attacks Targeting LLM-based Phishing Detection [0.7391823486666542]
大規模言語モデル(LLM)はインジェクション(PI)に対して脆弱である
本稿では,マルチモーダルLCMによるフィッシング検出に対するPIの総合評価について述べる。
InjectDefuserは、プロンプト硬化、許容リストに基づく検索強化、出力検証を組み合わせた防衛フレームワークである。
論文 参考訳(メタデータ) (2026-02-05T09:44:20Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis [48.70474961584997]
インダイレクト・プロンプト・インジェクション・アタック(IPIA)は大きな言語モデル(LLM)に重大な脅威をもたらす
IntentGuardは、命令追従インテント分析に基づく一般的な防御フレームワークである。
論文 参考訳(メタデータ) (2025-11-30T16:29:04Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - AI Kill Switch for malicious web-based LLM agent [4.144114850905779]
本稿では、悪意のあるWebベースのLLMエージェントの動作を停止できるAI Kill Switch技術を提案する。
鍵となるアイデアは、悪意のあるLLMエージェントの安全メカニズムをトリガーする防御的なプロンプトを生成することだ。
AutoGuardは、さまざまな悪意のあるエージェントに対して80%以上の防衛成功率(DSR)を達成する。
論文 参考訳(メタデータ) (2025-09-26T02:20:46Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。