Fugu-MT 論文翻訳(概要): Robust Utility-Preserving Text Anonymization Based on Large Language Models

論文の概要: Robust Utility-Preserving Text Anonymization Based on Large Language Models

arxiv url: http://arxiv.org/abs/2407.11770v1
Date: Tue, 16 Jul 2024 14:28:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 14:32:53.172243
Title: Robust Utility-Preserving Text Anonymization Based on Large Language Models
Title（参考訳）: 大規模言語モデルに基づくロバストなユーティリティ保存テキスト匿名化
Authors: Tianyu Yang, Xiaodan Zhu, Iryna Gurevych,
Abstract要約: テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
参考スコア（独自算出の注目度）: 80.5266278002083
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Text anonymization is crucial for sharing sensitive data while maintaining privacy. Existing techniques face the emerging challenges of re-identification attack ability of Large Language Models (LLMs), which have shown advanced capability in memorizing detailed information and patterns as well as connecting disparate pieces of information. In defending against LLM-based re-identification attacks, anonymization could jeopardize the utility of the resulting anonymized data in downstream tasks -- the trade-off between privacy and data utility requires deeper understanding within the context of LLMs. This paper proposes a framework composed of three LLM-based components -- a privacy evaluator, a utility evaluator, and an optimization component, which work collaboratively to perform anonymization. To provide a practical model for large-scale and real-time environments, we distill the anonymization capabilities into a lightweight model using Direct Preference Optimization (DPO). Extensive experiments demonstrate that the proposed models outperform baseline models, showing robustness in reducing the risk of re-identification while preserving greater data utility in downstream tasks. Our code and dataset are available at https://github.com/UKPLab/arxiv2024-rupta.
Abstract（参考訳）: テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。既存の技術は、異なる情報の断片を接続するだけでなく、詳細な情報やパターンを記憶する高度な能力を示したLarge Language Models (LLMs) の再識別攻撃能力の新たな課題に直面している。 LLMベースの再識別攻撃に対して、匿名化は、ダウンストリームタスクにおける結果の匿名化データの実用性を阻害する可能性がある。本稿では,3つのLCMベースのフレームワーク – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – を共用して匿名化を行うフレームワークを提案する。大規模かつリアルタイムな環境を実現するための実用的なモデルとして,直接優先度最適化(DPO)を用いた軽量モデルに匿名化機能を蒸留する。大規模な実験では、提案モデルがベースラインモデルより優れており、下流タスクでより大きなデータユーティリティを保ちながら、再識別のリスクを低減できるロバスト性を示している。コードとデータセットはhttps://github.com/UKPLab/arxiv2024-rupta.comから入手可能です。

関連論文リスト

AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text [8.758843436588297]
AgentStealthは、テキスト匿名化のための自己強化言語モデルである。本手法は, 匿名化の有効性と実用性の両方において, ベースラインよりも優れていることを示す。当社の軽量設計は、エッジデバイスへの直接的なデプロイをサポートし、クラウド依存や通信ベースのプライバシリスクを回避する。
論文参考訳（メタデータ） (2025-06-26T02:48:16Z)
Self-Refining Language Model Anonymizers via Adversarial Distillation [49.17383264812234]
大きな言語モデル(LLM)は、個人情報を推測する能力がプライバシーのリスクを生じさせるセンシティブなドメインで、ますます使われています。本稿では,SLM(Small Language Model)を訓練し,効率的な匿名化を実現するための新しい蒸留フレームワークであるSEAL(Self-refining Anonymization with Language Model)を紹介する。
論文参考訳（メタデータ） (2025-06-02T08:21:27Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Enhancing Leakage Attacks on Searchable Symmetric Encryption Using LLM-Based Synthetic Data Generation [0.0]
Searchable Symmetric Encryption (SSE)は、暗号化されたデータに対する効率的な検索機能を提供する。 SSEスキームは、アクセスパターン、検索周波数、ボリューム情報を利用する漏洩攻撃に対して脆弱である。本稿では,大規模言語モデル(LLM),特にGPT-4の変種を利用して,エンロンメールの現実のデータセットに統計的・意味的に類似した合成文書を生成する手法を提案する。
論文参考訳（メタデータ） (2025-04-29T04:23:10Z)
From Reviews to Dialogues: Active Synthesis for Zero-Shot LLM-based Conversational Recommender System [49.57258257916805]
大きな言語モデル(LLM)は強力なゼロショットレコメンデーション機能を示している。現実的なアプリケーションは、スケーラビリティ、解釈可能性、データプライバシの制約により、より小さく、内部的に管理された推奨モデルを好むことが多い。能動学習技術によって導かれるブラックボックスLSMを利用して,会話学習データを合成する能動データ拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-21T23:05:47Z)
Augmenting Anonymized Data with AI: Exploring the Feasibility and Limitations of Large Language Models in Data Enrichment [3.459382629188014]
大規模言語モデル(LLM)は、テキスト生成と理解の両方において高度な機能を示している。データアーカイブへのそれらの適用は、データ対象に関する機密情報の民営化を促進する可能性がある。このデータは、保護されていないとしても、開示と身元確認の両方の観点からプライバシー上のリスクをもたらす可能性がある。
論文参考訳（メタデータ） (2025-04-03T13:26:59Z)
Multi-Objective Optimization-Based Anonymization of Structured Data for Machine Learning [0.5452584641316627]
本研究は,プライバシ保護のための既存最適化モデルにおける重要な制約を明らかにする。本稿では,情報損失を同時に最小化し,攻撃に対する防御を最大化する新しい多目的最適化モデルを提案する。
論文参考訳（メタデータ） (2025-01-02T01:52:36Z)
FedDTPT: Federated Discrete and Transferable Prompt Tuning for Black-Box Large Language Models [14.719919025265224]
特定のシナリオからのデータを調整した大きな言語モデル(LLM)は、プライバシリークのリスクを引き起こす。ブラックボックス大言語モデルに対して,フェデレートされた離散的かつ転送可能なプロンプトチューニングであるFedDTPTを初めて提案する。提案手法は,ブラックボックス設定における非IDデータに対する高い精度,通信オーバーヘッドの低減,ロバスト性を実現する。
論文参考訳（メタデータ） (2024-11-01T19:19:23Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。 LLMはそのような抽出において従来の方法より優れている。即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文参考訳（メタデータ） (2024-08-14T04:49:30Z)
Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文参考訳（メタデータ） (2024-05-07T07:39:15Z)
FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。 FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文参考訳（メタデータ） (2024-03-10T08:41:22Z)
Large Language Models are Advanced Anonymizers [13.900633576526863]
敵の匿名化が、現在の業界レベルの匿名化を、その結果のユーティリティとプライバシの点で上回っていることを示す。まず,敵対的LLM推論の面における匿名性を評価するための新しい設定を提案する。
論文参考訳（メタデータ） (2024-02-21T14:44:00Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文参考訳（メタデータ） (2023-09-12T16:39:41Z)
A Trajectory K-Anonymity Model Based on Point Density and Partition [0.0]
本稿では点密度と分割(K PDP)に基づく軌道K匿名性モデルを開発する。再識別攻撃に抵抗し、k匿名データセットのデータユーティリティ損失を低減する。
論文参考訳（メタデータ） (2023-07-31T17:10:56Z)
Just Fine-tune Twice: Selective Differential Privacy for Large Language Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文参考訳（メタデータ） (2022-04-15T22:36:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。