論文の概要: Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs
- arxiv url: http://arxiv.org/abs/2602.11528v1
- Date: Thu, 12 Feb 2026 03:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.624233
- Title: Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs
- Title(参考訳): LLMにおける属性推論攻撃に対する積極的な防御
- Authors: Dong Yan, Jian Liang, Ran He, Tieniu Tan,
- Abstract要約: 大規模言語モデルは、ユーザ生成テキストからプライベートなユーザー属性を推測することができる。
既存の匿名化ベースの防御は粗く、プライバシーを優先する要素を匿名化する際に単語レベルの精度が欠如している。
細粒度匿名化(TRACE)と推論防止最適化(RPS)を組み合わせた統合防衛フレームワークを提案する。
- 参考スコア(独自算出の注目度): 61.15237978606501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that large language models (LLMs) can infer private user attributes (e.g., age, location, gender) from user-generated text shared online, enabling rapid and large-scale privacy breaches. Existing anonymization-based defenses are coarse-grained, lacking word-level precision in anonymizing privacy-leaking elements. Moreover, they are inherently limited as altering user text to hide sensitive cues still allows attribute inference to occur through models' reasoning capabilities. To address these limitations, we propose a unified defense framework that combines fine-grained anonymization (TRACE) with inference-preventing optimization (RPS). TRACE leverages attention mechanisms and inference chain generation to identify and anonymize privacy-leaking textual elements, while RPS employs a lightweight two-stage optimization strategy to induce model rejection behaviors, thereby preventing attribute inference. Evaluations across diverse LLMs show that TRACE-RPS reduces attribute inference accuracy from around 50\% to below 5\% on open-source models. In addition, our approach offers strong cross-model generalization, prompt-variation robustness, and utility-privacy tradeoffs. Our code is available at https://github.com/Jasper-Yan/TRACE-RPS.
- Abstract(参考訳): 近年の研究では、大規模言語モデル(LLM)が、オンラインで共有されたユーザ生成テキストからプライベートなユーザ属性(年齢、場所、性別など)を推論し、迅速かつ大規模なプライバシ侵害を可能にすることが示されている。
既存の匿名化ベースの防御は粗大であり、プライバシーを優先する要素を匿名化する際に単語レベルの精度が欠如している。
さらに、センシティブなキューを隠すためにユーザーテキストを変更することで、モデルの推論機能を通じて属性推論ができるため、本質的に制限されている。
これらの制約に対処するために、細粒度匿名化(TRACE)と推論防止最適化(RPS)を組み合わせた統合防御フレームワークを提案する。
TRACEは、注意機構と推論チェーン生成を利用して、プライバシをリードするテキスト要素を特定し、匿名化する一方、RSSは軽量な2段階最適化戦略を用いてモデル拒絶動作を誘導し、属性推論を防止している。
LLMの様々な評価から、TRACE-RPSは属性推論の精度を約50\%から5\%以下に下げることが示された。
さらに、我々の手法は強力なクロスモデル一般化、即時変動堅牢性、ユーティリティ・プライバシ・トレードオフを提供する。
私たちのコードはhttps://github.com/Jasper-Yan/TRACE-RPS.comで利用可能です。
関連論文リスト
- VoxGuard: Evaluating User and Attribute Privacy in Speech via Membership Inference Attacks [51.68795949691009]
差分プライバシとメンバシップ推論に基づくフレームワークであるVoxGuardを紹介した。
属性については, 匿名化後も, 性別やアクセントをほぼ完全精度で再現できることが示唆された。
以上の結果から,EERはリークを著しく過小評価し,低FPR評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-22T20:57:48Z) - RL-Finetuned LLMs for Privacy-Preserving Synthetic Rewriting [17.294176570269]
本稿では,複合報酬関数を用いた大規模言語モデル(LLM)を微調整する強化学習フレームワークを提案する。
プライバシ報酬は、セマンティックキューと、潜伏表現上の最小スパンニングツリー(MST)から派生した構造パターンを組み合わせる。
実験の結果,提案手法はセマンティック品質を劣化させることなく,著者の難読化とプライバシーの指標を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T04:38:19Z) - Privacy-Aware Decoding: Mitigating Privacy Leakage of Large Language Models in Retrieval-Augmented Generation [26.573578326262307]
プライバシ・アウェア・デコーディング(英: Privacy-Aware Decoding、PAD)は、ガウス雑音を発生時にトークンロジットに適応的に注入する軽量な推論時防御法である。
PADは信頼性ベースのスクリーニングを統合して、リスクの高いトークンを選択的に保護し、不要なノイズを最小限に抑える効率的な感度推定と、プライバシと生成品質のバランスをとるためのコンテキスト対応ノイズ校正を行う。
我々の研究は、機密ドメインにおける普遍的でスケーラブルなプライバシソリューションを実現するために、デコード戦略を通じて、RAGのプライバシリスクを軽減するための重要な一歩を踏み出しています。
論文 参考訳(メタデータ) (2025-08-05T05:22:13Z) - AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text [8.758843436588297]
AgentStealthは、テキスト匿名化のための自己強化言語モデルである。
本手法は, 匿名化の有効性と実用性の両方において, ベースラインよりも優れていることを示す。
当社の軽量設計は、エッジデバイスへの直接的なデプロイをサポートし、クラウド依存や通信ベースのプライバシリスクを回避する。
論文 参考訳(メタデータ) (2025-06-26T02:48:16Z) - Self-Refining Language Model Anonymizers via Adversarial Distillation [48.280759014096354]
本稿では,Self-refining Anonymization with Language Model (SEAL)を紹介する。
SEALは、推論時に外部モデルに頼ることなく効果的な匿名化を行うために、小型言語モデル(SLM)をトレーニングするための新しい蒸留フレームワークである。
合成個人プロファイルとテキストコメントのデータセットであるSynthPAIの実験は、SEALでトレーニングされたSLMが匿名化機能を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T08:21:27Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - IncogniText: Privacy-enhancing Conditional Text Anonymization via LLM-based Private Attribute Randomization [8.483679748399037]
IncogniTextは,テキストを匿名化して潜在的敵を誤認し,誤った属性値を予測する手法である。
実証評価の結果,8種類の属性に対して,プライベート属性リークが90%以上減少していることがわかった。
論文 参考訳(メタデータ) (2024-07-03T09:49:03Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。