論文の概要: AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text
- arxiv url: http://arxiv.org/abs/2506.22508v1
- Date: Thu, 26 Jun 2025 02:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.432553
- Title: AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text
- Title(参考訳): AgentStealth: ユーザ生成テキストの匿名化のための大規模言語モデルの強化
- Authors: Chenyang Shao, Tianxing Li, Chenhao Pu, Fengli Xu, Yong Li,
- Abstract要約: AgentStealthは、テキスト匿名化のための自己強化言語モデルである。
本手法は, 匿名化の有効性と実用性の両方において, ベースラインよりも優れていることを示す。
当社の軽量設計は、エッジデバイスへの直接的なデプロイをサポートし、クラウド依存や通信ベースのプライバシリスクを回避する。
- 参考スコア(独自算出の注目度): 8.758843436588297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In today's digital world, casual user-generated content often contains subtle cues that may inadvertently expose sensitive personal attributes. Such risks underscore the growing importance of effective text anonymization to safeguard individual privacy. However, existing methods either rely on rigid replacements that damage utility or cloud-based LLMs that are costly and pose privacy risks. To address these issues, we explore the use of locally deployed smaller-scale language models (SLMs) for anonymization. Yet training effective SLMs remains challenging due to limited high-quality supervision. To address the challenge, we propose AgentStealth, a self-reinforcing LLM anonymization framework.First, we introduce an adversarial anonymization workflow enhanced by In-context Contrastive Learning and Adaptive Utility-Aware Control. Second, we perform supervised adaptation of SLMs using high-quality data collected from the workflow, which includes both anonymization and attack signals. Finally, we apply online reinforcement learning where the model leverages its internal adversarial feedback to iteratively improve anonymization performance. Experiments on two datasets show that our method outperforms baselines in both anonymization effectiveness (+12.3%) and utility (+6.8%). Our lightweight design supports direct deployment on edge devices, avoiding cloud reliance and communication-based privacy risks. Our code is open-source at https://github.com/tsinghua-fib-lab/AgentStealth.
- Abstract(参考訳): 今日のデジタル世界では、カジュアルなユーザー生成コンテンツは微妙な手がかりを含むことが多い。
このようなリスクは、個人のプライバシーを守るための効果的なテキスト匿名化の重要性の高まりを浮き彫りにしている。
しかし、既存の方法では、ユーティリティを損なう厳格な代替手段や、コストがかかりプライバシーのリスクが生じるクラウドベースのLCMに依存している。
これらの問題に対処するために、我々は、匿名化にローカルにデプロイされた小規模言語モデル(SLM)について検討する。
しかし、高品質の監督が限られているため、効果的なSLMの訓練は依然として困難である。
そこで,本稿では,自己強化型LLM匿名化フレームワークであるAgentStealthを提案する。
第2に、匿名化と攻撃信号の両方を含むワークフローから収集した高品質なデータを用いて、SLMの教師付き適応を行う。
最後に、モデルが内部の敵からのフィードバックを利用して匿名化性能を反復的に向上するオンライン強化学習を適用する。
2つのデータセットの実験により、我々の手法は匿名化の有効性(+12.3%)とユーティリティ(+6.8%)の両方でベースラインを上回っていることが示された。
当社の軽量設計は、エッジデバイスへの直接的なデプロイをサポートし、クラウド依存や通信ベースのプライバシリスクを回避する。
私たちのコードはhttps://github.com/tsinghua-fib-lab/AgentStealth.comでオープンソース化されています。
関連論文リスト
- Self-Refining Language Model Anonymizers via Adversarial Distillation [49.17383264812234]
大きな言語モデル(LLM)は、個人情報を推測する能力がプライバシーのリスクを生じさせるセンシティブなドメインで、ますます使われています。
本稿では,SLM(Small Language Model)を訓練し,効率的な匿名化を実現するための新しい蒸留フレームワークであるSEAL(Self-refining Anonymization with Language Model)を紹介する。
論文 参考訳(メタデータ) (2025-06-02T08:21:27Z) - Automated Profile Inference with Language Model Agents [67.32226960040514]
自動プロファイル推論(Automatic Profile Inference)と呼ばれる,LLMがオンラインの偽名にもたらす新たな脅威について検討する。
相手は、LDMに対して、疑似プラットフォーム上で公開されているユーザアクティビティから、機密性の高い個人属性を自動的に取り除き、抽出するように指示することができる。
実世界のシナリオにおけるこのような脅威の可能性を評価するために,AutoProfilerという自動プロファイリングフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T13:05:17Z) - PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage [78.33839735526769]
LLMは、慎重に構築された敵のプロンプトの下で私的情報を出力することに騙される可能性がある。
PrivAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Large Language Models are Advanced Anonymizers [2.9373912230684565]
大規模言語モデル(LLM)に関する最近のプライバシー調査では、オンラインテキストから個人データを推測することで、ほぼ人間レベルのパフォーマンスを達成することが示されている。
既存のテキスト匿名化手法は現在、規制要件や敵の脅威に欠けています。
逆LLM推論の面における匿名性を評価するための新しい設定法を提案する。
論文 参考訳(メタデータ) (2024-02-21T14:44:00Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。