論文の概要: The Limits of Word Level Differential Privacy
- arxiv url: http://arxiv.org/abs/2205.02130v1
- Date: Mon, 2 May 2022 21:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:06:25.043642
- Title: The Limits of Word Level Differential Privacy
- Title(参考訳): 単語レベルの差分プライバシーの限界
- Authors: Justus Mattern, Benjamin Weggenmann, Florian Kerschbaum
- Abstract要約: そこで本稿では, パラフレージング用に微調整されたトランスフォーマーベース言語モデルに基づくテキスト匿名化手法を提案する。
提案手法を徹底的な実験により評価し,提案手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 30.34805746574316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the issues of privacy and trust are receiving increasing attention within
the research community, various attempts have been made to anonymize textual
data. A significant subset of these approaches incorporate differentially
private mechanisms to perturb word embeddings, thus replacing individual words
in a sentence. While these methods represent very important contributions, have
various advantages over other techniques and do show anonymization
capabilities, they have several shortcomings. In this paper, we investigate
these weaknesses and demonstrate significant mathematical constraints
diminishing the theoretical privacy guarantee as well as major practical
shortcomings with regard to the protection against deanonymization attacks, the
preservation of content of the original sentences as well as the quality of the
language output. Finally, we propose a new method for text anonymization based
on transformer based language models fine-tuned for paraphrasing that
circumvents most of the identified weaknesses and also offers a formal privacy
guarantee. We evaluate the performance of our method via thorough
experimentation and demonstrate superior performance over the discussed
mechanisms.
- Abstract(参考訳): プライバシーと信頼の問題が研究コミュニティで注目を集めている中、テキストデータの匿名化は様々な試みがなされている。
これらのアプローチの重要なサブセットは、文中の個々の単語を置き換えるために、単語の埋め込みを摂動する微分プライベートなメカニズムを取り入れている。
これらの方法は非常に重要な貢献であり、他の技術よりも様々な利点があり、匿名化能力を示しているが、いくつかの欠点がある。
本稿では,これらの弱点を検証し,理論的プライバシー保証を低下させる重要な数学的制約と,非匿名化攻撃に対する保護,原文の内容の保存,および言語出力の質に関する主要な実用的欠点を示す。
最後に,テキスト匿名化のための新しい手法として,認識された弱点のほとんどを回避し,形式的なプライバシー保証を提供するパラフレージングを念入りに調整したトランスフォーマティブ言語モデルを提案する。
本手法の性能を徹底的な実験により評価し,提案手法よりも優れた性能を示す。
関連論文リスト
- Large Language Models are Advanced Anonymizers [13.900633576526863]
敵の匿名化が、現在の業界レベルの匿名化を、その結果のユーティリティとプライバシの点で上回っていることを示す。
まず,敵対的LLM推論の面における匿名性を評価するための新しい設定を提案する。
論文 参考訳(メタデータ) (2024-02-21T14:44:00Z) - TernaryVote: Differentially Private, Communication Efficient, and
Byzantine Resilient Distributed Optimization on Heterogeneous Data [50.797729676285876]
本稿では, 3次圧縮機と多数決機構を組み合わせて, 差分プライバシー, 勾配圧縮, ビザンチンレジリエンスを同時に実現するternaryVoteを提案する。
提案アルゴリズムのF差分プライバシー(DP)とビザンチンレジリエンスのレンズによるプライバシー保証を理論的に定量化する。
論文 参考訳(メタデータ) (2024-02-16T16:41:14Z) - Locally Differentially Private Document Generation Using Zero Shot
Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。
DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文 参考訳(メタデータ) (2023-10-24T18:25:13Z) - Disentangling the Linguistic Competence of Privacy-Preserving BERT [0.0]
差別化プライバシ(DP)は、テキストからテキストへの民営化というユニークな課題に対処するために調整されている。
我々は、摂動前文で訓練されたBERTから抽出した内部表現に対して、一連の解釈手法を用いる。
この相違点を解き放つために探索的タスクを用いることで、テキストからテキストへの民営化がいくつかの形式主義における言語能力に影響を及ぼす証拠を見出す。
論文 参考訳(メタデータ) (2023-10-17T16:00:26Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Breaking the Communication-Privacy-Accuracy Tradeoff with
$f$-Differential Privacy [51.11280118806893]
サーバが複数のユーザの協調的なデータ分析を,プライバシの懸念と限られた通信能力で調整する,フェデレートされたデータ分析問題を考える。
有限出力空間を有する離散値機構の局所的差分プライバシー保証を$f$-differential privacy (DP) レンズを用いて検討する。
より具体的には、様々な離散的評価機構の厳密な$f$-DP保証を導出することにより、既存の文献を前進させる。
論文 参考訳(メタデータ) (2023-02-19T16:58:53Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Planting and Mitigating Memorized Content in Predictive-Text Language
Models [11.911353678499008]
言語モデルは、ユーザ製品に自動テキスト補完サービスを提供するために広くデプロイされている。
近年の研究では、言語モデルがプライベートトレーニングデータを記憶するかなりのリスクを負っていることが明らかになっている。
本研究では,機密テキストの意図しない暗記を緩和するために,プライバシー保護手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-12-16T17:57:14Z) - Semantics-Preserved Distortion for Personal Privacy Protection [48.69930912510414]
クライアントデバイスでは、ユーザによって毎日、個人情報を含む大量のテキストが生成される。
フェデレートラーニング(Federated Learning)では、クライアントデバイスの生の情報から中心モデルをブロックする多くの方法が提案されている。
本稿では,意味を保ちながらテキストを歪ませることで,より言語的にこれを行おうとする。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - Research Challenges in Designing Differentially Private Text Generation
Mechanisms [5.123298347655088]
我々は、異なるプライベートテキストメカニズムのプライバシーとユーティリティのトレードオフのバランスにおけるいくつかの課題について説明します。
私たちの目標は、単一のソリューションを評価するのではなく、これらの課題とより良いメカニズムを構築するためのチャートパスに関する会話をさらに進めることです。
論文 参考訳(メタデータ) (2020-12-10T01:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。