論文の概要: A Differentially Private Text Perturbation Method Using a Regularized
Mahalanobis Metric
- arxiv url: http://arxiv.org/abs/2010.11947v1
- Date: Thu, 22 Oct 2020 23:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 04:55:57.162368
- Title: A Differentially Private Text Perturbation Method Using a Regularized
Mahalanobis Metric
- Title(参考訳): 正則化マハラノビス計量を用いた微分プライベートテキスト摂動法
- Authors: Zekun Xu, Abhinav Aggarwal, Oluwaseyi Feyisetan, Nathanael Teissier
- Abstract要約: プライバシを保存するテキスト分析の一般的なアプローチはノイズ注入であり、まずテキストデータを連続的な埋め込み空間にマッピングする。
本稿では,この問題を解決するために,マハラノビス計量の正規化変種を慎重に設計したテキスト摂動機構を提案する。
我々はこの指標に基づいてテキスト摂動アルゴリズムを提供し、そのプライバシー保証を正式に証明する。
- 参考スコア(独自算出の注目度): 8.679020335206753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing the privacy-utility tradeoff is a crucial requirement of many
practical machine learning systems that deal with sensitive customer data. A
popular approach for privacy-preserving text analysis is noise injection, in
which text data is first mapped into a continuous embedding space, perturbed by
sampling a spherical noise from an appropriate distribution, and then projected
back to the discrete vocabulary space. While this allows the perturbation to
admit the required metric differential privacy, often the utility of downstream
tasks modeled on this perturbed data is low because the spherical noise does
not account for the variability in the density around different words in the
embedding space. In particular, words in a sparse region are likely unchanged
even when the noise scale is large. %Using the global sensitivity of the
mechanism can potentially add too much noise to the words in the dense regions
of the embedding space, causing a high utility loss, whereas using local
sensitivity can leak information through the scale of the noise added.
In this paper, we propose a text perturbation mechanism based on a carefully
designed regularized variant of the Mahalanobis metric to overcome this
problem. For any given noise scale, this metric adds an elliptical noise to
account for the covariance structure in the embedding space. This heterogeneity
in the noise scale along different directions helps ensure that the words in
the sparse region have sufficient likelihood of replacement without sacrificing
the overall utility. We provide a text-perturbation algorithm based on this
metric and formally prove its privacy guarantees. Additionally, we empirically
show that our mechanism improves the privacy statistics to achieve the same
level of utility as compared to the state-of-the-art Laplace mechanism.
- Abstract(参考訳): プライバシ利用のトレードオフのバランスは、機密性の高い顧客データを扱う多くの実用的な機械学習システムにとって重要な要件です。
プライバシ保存テキスト解析の一般的なアプローチはノイズインジェクションであり、テキストデータはまず連続的な埋め込み空間にマッピングされ、適切な分布から球面ノイズをサンプリングして摂動し、それから離散的な語彙空間に投影される。
これにより、摂動は必要な計量微分プライバシーを認めることができるが、球面ノイズが埋め込み空間内の異なる単語の密度の変動性を考慮しないため、摂動データに基づいてモデル化された下流タスクの有用性は低いことが多い。
特に、ノイズスケールが大きい場合でも、スパース領域の単語は変化しない可能性が高い。
% この機構のグローバル感度は, 組込み空間の密集領域の単語に過剰なノイズを付加し, 有効性が低下するおそれがある一方, 局所感度を用いることで, 付加ノイズの規模を通じて情報を漏洩させる可能性がある。
本稿では,この問題を克服するために,マハラノビス計量の丁寧に設計された正規化変種に基づくテキスト摂動機構を提案する。
任意のノイズスケールに対して、この計量は埋め込み空間の共分散構造を考慮した楕円ノイズを付加する。
このノイズスケールの不均一性は、スパース領域の単語が全体の有用性を犠牲にすることなく、十分な置換可能性を持つことを保証する。
我々はこの指標に基づいてテキスト摂動アルゴリズムを提供し、そのプライバシー保証を正式に証明する。
さらに,本機構は,最先端のラプラス機構と同等の利便性を実現するために,プライバシ統計を改善できることを実証的に示す。
関連論文リスト
- Breaking the Communication-Privacy-Accuracy Tradeoff with
$f$-Differential Privacy [51.11280118806893]
サーバが複数のユーザの協調的なデータ分析を,プライバシの懸念と限られた通信能力で調整する,フェデレートされたデータ分析問題を考える。
有限出力空間を有する離散値機構の局所的差分プライバシー保証を$f$-differential privacy (DP) レンズを用いて検討する。
より具体的には、様々な離散的評価機構の厳密な$f$-DP保証を導出することにより、既存の文献を前進させる。
論文 参考訳(メタデータ) (2023-02-19T16:58:53Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - Robust Inference of Manifold Density and Geometry by Doubly Stochastic
Scaling [8.271859911016719]
我々は高次元雑音下で頑健な推論のためのツールを開発する。
提案手法は, セルタイプにまたがる技術的ノイズレベルの変動に頑健であることを示す。
論文 参考訳(メタデータ) (2022-09-16T15:39:11Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Differential privacy for symmetric log-concave mechanisms [0.0]
データベースクエリ結果にランダムノイズを加えることは、プライバシを達成するための重要なツールである。
我々は、すべての対称および対数凹形ノイズ密度に対して、$(epsilon, delta)$-differential privacyに対して十分かつ必要な条件を提供する。
論文 参考訳(メタデータ) (2022-02-23T10:20:29Z) - Learning Numeric Optimal Differentially Private Truncated Additive
Mechanisms [5.079561894598125]
実効性境界が強い付加的なメカニズムに対して,トランクテッドノイズを学習するためのツールを提案する。
平均単調な単調な音から, 対称性やその新しい音を考慮すれば十分であることを示す。
感度境界機構については, 平均単調な単調なノイズから, 対称性とその新しさを考えるのに十分であることを示す。
論文 参考訳(メタデータ) (2021-07-27T17:22:57Z) - Graph-Homomorphic Perturbations for Private Decentralized Learning [64.26238893241322]
ローカルな見積もりの交換は、プライベートデータに基づくデータの推測を可能にする。
すべてのエージェントで独立して選択された摂動により、パフォーマンスが著しく低下する。
本稿では,特定のヌル空間条件に従って摂動を構成する代替スキームを提案する。
論文 参考訳(メタデータ) (2020-10-23T10:35:35Z) - Deconvoluting Kernel Density Estimation and Regression for Locally
Differentially Private Data [14.095523601311374]
ローカルな差分プライバシーは、機密性の高い個々のデータポイントを収集または公開するためのプライバシー文学のゴールドスタンダードとなっている。
しかし、局所的な差分データは、プライバシーを確保するために使われる付加ノイズのため、データの確率密度をゆがめることがある。
本研究では,スムースなカーネルを用いた密度推定手法を開発し,プライバシ保護ノイズの影響を除去する。
論文 参考訳(メタデータ) (2020-08-28T03:39:17Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - The Discrete Gaussian for Differential Privacy [26.179150185540514]
微分プライベートシステムを構築するための重要なツールは、機密データセットで評価された関数の出力にガウスノイズを追加することである。
これまでの研究は、一見無害な数値エラーがプライバシーを完全に破壊することを示した。
差分プライバシーの文脈において、離散ガウシアンを導入・分析する。
論文 参考訳(メタデータ) (2020-03-31T18:00:00Z) - Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles [65.9694455739978]
特徴不確実性の下での文脈線形帯域問題について検討する。
本分析により, 最適仮説は, 雑音特性に応じて, 基礎となる実現可能性関数から著しく逸脱しうることが明らかとなった。
これは、古典的アプローチが非自明な後悔境界を保証できないことを意味する。
論文 参考訳(メタデータ) (2017-03-03T21:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。