論文の概要: The Limits of Word Level Differential Privacy
- arxiv url: http://arxiv.org/abs/2205.02130v1
- Date: Mon, 2 May 2022 21:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:06:25.043642
- Title: The Limits of Word Level Differential Privacy
- Title(参考訳): 単語レベルの差分プライバシーの限界
- Authors: Justus Mattern, Benjamin Weggenmann, Florian Kerschbaum
- Abstract要約: そこで本稿では, パラフレージング用に微調整されたトランスフォーマーベース言語モデルに基づくテキスト匿名化手法を提案する。
提案手法を徹底的な実験により評価し,提案手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 30.34805746574316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the issues of privacy and trust are receiving increasing attention within
the research community, various attempts have been made to anonymize textual
data. A significant subset of these approaches incorporate differentially
private mechanisms to perturb word embeddings, thus replacing individual words
in a sentence. While these methods represent very important contributions, have
various advantages over other techniques and do show anonymization
capabilities, they have several shortcomings. In this paper, we investigate
these weaknesses and demonstrate significant mathematical constraints
diminishing the theoretical privacy guarantee as well as major practical
shortcomings with regard to the protection against deanonymization attacks, the
preservation of content of the original sentences as well as the quality of the
language output. Finally, we propose a new method for text anonymization based
on transformer based language models fine-tuned for paraphrasing that
circumvents most of the identified weaknesses and also offers a formal privacy
guarantee. We evaluate the performance of our method via thorough
experimentation and demonstrate superior performance over the discussed
mechanisms.
- Abstract(参考訳): プライバシーと信頼の問題が研究コミュニティで注目を集めている中、テキストデータの匿名化は様々な試みがなされている。
これらのアプローチの重要なサブセットは、文中の個々の単語を置き換えるために、単語の埋め込みを摂動する微分プライベートなメカニズムを取り入れている。
これらの方法は非常に重要な貢献であり、他の技術よりも様々な利点があり、匿名化能力を示しているが、いくつかの欠点がある。
本稿では,これらの弱点を検証し,理論的プライバシー保証を低下させる重要な数学的制約と,非匿名化攻撃に対する保護,原文の内容の保存,および言語出力の質に関する主要な実用的欠点を示す。
最後に,テキスト匿名化のための新しい手法として,認識された弱点のほとんどを回避し,形式的なプライバシー保証を提供するパラフレージングを念入りに調整したトランスフォーマティブ言語モデルを提案する。
本手法の性能を徹底的な実験により評価し,提案手法よりも優れた性能を示す。
関連論文リスト
- Differential Privacy Overview and Fundamental Techniques [63.0409690498569]
この章は、"Differential Privacy in Artificial Intelligence: From Theory to Practice"という本の一部である。
まず、データのプライバシ保護のためのさまざまな試みについて説明し、その失敗の場所と理由を強調した。
次に、プライバシ保護データ分析の領域を構成する重要なアクター、タスク、スコープを定義する。
論文 参考訳(メタデータ) (2024-11-07T13:52:11Z) - Subword Embedding from Bytes Gains Privacy without Sacrificing Accuracy and Complexity [5.7601856226895665]
本稿では,Bytes (SEB) からのSubword Embeddingを提案し,深層ニューラルネットワークを用いてサブワードをバイト列にエンコードする。
我々のソリューションは、効率や精度を犠牲にすることなく、プライバシを保ち、従来の手法よりも優れています。
機械翻訳、感情分析、言語モデリングにおいて、SEBは標準的なサブワード埋め込み手法よりも同等でより良い結果が得られることを検証した。
論文 参考訳(メタデータ) (2024-10-21T18:25:24Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - RedactBuster: Entity Type Recognition from Redacted Documents [13.172863061928899]
文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているテキスト匿名化ベンチマーク(TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
論文 参考訳(メタデータ) (2024-04-19T16:42:44Z) - Large Language Models are Advanced Anonymizers [13.900633576526863]
敵の匿名化が、現在の業界レベルの匿名化を、その結果のユーティリティとプライバシの点で上回っていることを示す。
まず,敵対的LLM推論の面における匿名性を評価するための新しい設定を提案する。
論文 参考訳(メタデータ) (2024-02-21T14:44:00Z) - TernaryVote: Differentially Private, Communication Efficient, and
Byzantine Resilient Distributed Optimization on Heterogeneous Data [50.797729676285876]
本稿では, 3次圧縮機と多数決機構を組み合わせて, 差分プライバシー, 勾配圧縮, ビザンチンレジリエンスを同時に実現するternaryVoteを提案する。
提案アルゴリズムのF差分プライバシー(DP)とビザンチンレジリエンスのレンズによるプライバシー保証を理論的に定量化する。
論文 参考訳(メタデータ) (2024-02-16T16:41:14Z) - Disentangling the Linguistic Competence of Privacy-Preserving BERT [0.0]
差別化プライバシ(DP)は、テキストからテキストへの民営化というユニークな課題に対処するために調整されている。
我々は、摂動前文で訓練されたBERTから抽出した内部表現に対して、一連の解釈手法を用いる。
この相違点を解き放つために探索的タスクを用いることで、テキストからテキストへの民営化がいくつかの形式主義における言語能力に影響を及ぼす証拠を見出す。
論文 参考訳(メタデータ) (2023-10-17T16:00:26Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。