論文の概要: Robust Utility-Preserving Text Anonymization Based on Large Language Models
- arxiv url: http://arxiv.org/abs/2407.11770v2
- Date: Wed, 18 Jun 2025 08:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.345105
- Title: Robust Utility-Preserving Text Anonymization Based on Large Language Models
- Title(参考訳): 大規模言語モデルに基づくロバストなユーティリティ保存テキスト匿名化
- Authors: Tianyu Yang, Xiaodan Zhu, Iryna Gurevych,
- Abstract要約: 機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 80.5266278002083
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Anonymizing text that contains sensitive information is crucial for a wide range of applications. Existing techniques face the emerging challenges of the re-identification ability of large language models (LLMs), which have shown advanced capability in memorizing detailed information and reasoning over dispersed pieces of patterns to draw conclusions. When defending against LLM-based re-identification, anonymization could jeopardize the utility of the resulting anonymized data in downstream tasks. In general, the interaction between anonymization and data utility requires a deeper understanding within the context of LLMs. In this paper, we propose a framework composed of three key LLM-based components: a privacy evaluator, a utility evaluator, and an optimization component, which work collaboratively to perform anonymization. Extensive experiments demonstrate that the proposed model outperforms existing baselines, showing robustness in reducing the risk of re-identification while preserving greater data utility in downstream tasks. We provide detailed studies on these core modules. To consider large-scale and real-time applications, we investigate the distillation of the anonymization capabilities into lightweight models. All of our code and datasets will be made publicly available at https://github.com/UKPLab/acl2025-rupta.
- Abstract(参考訳): 機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデル(LLM)の再識別能力の新たな課題に直面している。
LLMベースの再識別を防御する場合、匿名化はダウンストリームタスクにおける匿名データの有用性を損なう可能性がある。
一般に、匿名化とデータユーティリティの相互作用は、LLMのコンテキスト内でより深く理解する必要がある。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの主要なLCMベースコンポーネントからなるフレームワークを提案する。
大規模な実験により、提案モデルは既存のベースラインよりも優れており、下流タスクにおけるデータの有用性を保ちながら、再識別のリスクを低減できるロバスト性を示している。
これらのコアモジュールについて詳細な研究を行っている。
大規模かつリアルタイムな応用を検討するため,軽量モデルへの匿名化能力の蒸留について検討する。
コードとデータセットはすべてhttps://github.com/UKPLab/acl2025-rupta.comで公開されます。
関連論文リスト
- Enhancing Leakage Attacks on Searchable Symmetric Encryption Using LLM-Based Synthetic Data Generation [0.0]
Searchable Symmetric Encryption (SSE)は、暗号化されたデータに対する効率的な検索機能を提供する。
SSEスキームは、アクセスパターン、検索周波数、ボリューム情報を利用する漏洩攻撃に対して脆弱である。
本稿では,大規模言語モデル(LLM),特にGPT-4の変種を利用して,エンロンメールの現実のデータセットに統計的・意味的に類似した合成文書を生成する手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T04:23:10Z) - From Reviews to Dialogues: Active Synthesis for Zero-Shot LLM-based Conversational Recommender System [49.57258257916805]
大きな言語モデル(LLM)は強力なゼロショットレコメンデーション機能を示している。
現実的なアプリケーションは、スケーラビリティ、解釈可能性、データプライバシの制約により、より小さく、内部的に管理された推奨モデルを好むことが多い。
能動学習技術によって導かれるブラックボックスLSMを利用して,会話学習データを合成する能動データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T23:05:47Z) - Augmenting Anonymized Data with AI: Exploring the Feasibility and Limitations of Large Language Models in Data Enrichment [3.459382629188014]
大規模言語モデル(LLM)は、テキスト生成と理解の両方において高度な機能を示している。
データアーカイブへのそれらの適用は、データ対象に関する機密情報の民営化を促進する可能性がある。
このデータは、保護されていないとしても、開示と身元確認の両方の観点からプライバシー上のリスクをもたらす可能性がある。
論文 参考訳(メタデータ) (2025-04-03T13:26:59Z) - Multi-Objective Optimization-Based Anonymization of Structured Data for Machine Learning [0.5452584641316627]
本研究は,プライバシ保護のための既存最適化モデルにおける重要な制約を明らかにする。
本稿では,情報損失を同時に最小化し,攻撃に対する防御を最大化する新しい多目的最適化モデルを提案する。
論文 参考訳(メタデータ) (2025-01-02T01:52:36Z) - FedDTPT: Federated Discrete and Transferable Prompt Tuning for Black-Box Large Language Models [14.719919025265224]
特定のシナリオからのデータを調整した大きな言語モデル(LLM)は、プライバシリークのリスクを引き起こす。
ブラックボックス大言語モデルに対して,フェデレートされた離散的かつ転送可能なプロンプトチューニングであるFedDTPTを初めて提案する。
提案手法は,ブラックボックス設定における非IDデータに対する高い精度,通信オーバーヘッドの低減,ロバスト性を実現する。
論文 参考訳(メタデータ) (2024-11-01T19:19:23Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。
LLMはそのような抽出において従来の方法より優れている。
即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Large Language Models are Advanced Anonymizers [13.900633576526863]
敵の匿名化が、現在の業界レベルの匿名化を、その結果のユーティリティとプライバシの点で上回っていることを示す。
まず,敵対的LLM推論の面における匿名性を評価するための新しい設定を提案する。
論文 参考訳(メタデータ) (2024-02-21T14:44:00Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - A Trajectory K-Anonymity Model Based on Point Density and Partition [0.0]
本稿では点密度と分割(K PDP)に基づく軌道K匿名性モデルを開発する。
再識別攻撃に抵抗し、k匿名データセットのデータユーティリティ損失を低減する。
論文 参考訳(メタデータ) (2023-07-31T17:10:56Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。