論文の概要: $d_X$-Privacy for Text and the Curse of Dimensionality
- arxiv url: http://arxiv.org/abs/2411.13784v1
- Date: Thu, 21 Nov 2024 01:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:34.997032
- Title: $d_X$-Privacy for Text and the Curse of Dimensionality
- Title(参考訳): テキストと次元の曲線に対する$d_X$-Privacy
- Authors: Hassan Jameel Asghar, Robin Carpentier, Benjamin Zi Hao Zhao, Dali Kaafar,
- Abstract要約: 構造化されていないテキストデータのプライバシーを確保するために広く使われている方法は、$d_X$-privacyの多次元Laplaceメカニズムである。
単語単位で適用された場合、そのメカニズムは元の単語を出力するか、完全に異なる単語を出力する。
多次元ラプラス雑音ベクトルのドット積に任意の単語を埋め込むことが、近接する近傍を識別する上で重要な役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 4.372695214012181
- License:
- Abstract: A widely used method to ensure privacy of unstructured text data is the multidimensional Laplace mechanism for $d_X$-privacy, which is a relaxation of differential privacy for metric spaces. We identify an intriguing peculiarity of this mechanism. When applied on a word-by-word basis, the mechanism either outputs the original word, or completely dissimilar words, and very rarely any semantically similar words. We investigate this observation in detail, and tie it to the fact that the distance of the nearest neighbor of a word in any word embedding model (which are high-dimensional) is much larger than the relative difference in distances to any of its two consecutive neighbors. We also show that the dot product of the multidimensional Laplace noise vector with any word embedding plays a crucial role in designating the nearest neighbor. We derive the distribution, moments and tail bounds of this dot product. We further propose a fix as a post-processing step, which satisfactorily removes the above-mentioned issue.
- Abstract(参考訳): 構造化されていないテキストデータのプライバシーを確保するために広く使われている手法は、$d_X$-privacyのための多次元ラプラス機構である。
私たちはこのメカニズムの興味深い特異点を特定します。
単語単位で適用された場合、そのメカニズムは元の単語を出力するか、完全に異なる単語を出力する。
この観察を詳細に検討し、単語埋め込みモデル(高次元)における単語の近傍の距離が、2つの連続する隣人との距離の相対差よりもはるかに大きいという事実に結びつける。
また,単語を埋め込んだ多次元ラプラス雑音ベクトルのドット積が,近接する近傍を識別する上で重要な役割を担っていることを示す。
この点積の分布、モーメント、テール境界を導出する。
さらに,前述した問題を確実に取り除いた後処理ステップとしての修正を提案する。
関連論文リスト
- A Collocation-based Method for Addressing Challenges in Word-level Metric Differential Privacy [3.0177210416625124]
ワードレベルの$textitMetric$ Differential Privacyアプローチが提案されている。
構成された民営化出力のセマンティックコヒーレンスと可変長を向上する手法を考案する。
本手法を実用性とプライバシテストで評価することにより,単語レベルを超えてトークン化戦略を明確にする。
論文 参考訳(メタデータ) (2024-06-30T09:37:34Z) - A Neighbourhood-Aware Differential Privacy Mechanism for Static Word
Embeddings [29.514170092086598]
本研究では,事前訓練された静的単語埋め込み空間において,単語の近傍を考慮に入れたNighbourhood-Aware Differential Privacy (NADP) 機構を提案する。
まず、単語に最も近い近傍グラフを埋め込みを用いて構築し、それを連結成分の集合に分解する。
次に、各近傍の単語に対して異なるレベルのガウス雑音を別々に適用し、その近傍の単語の集合によって決定される。
論文 参考訳(メタデータ) (2023-09-19T11:58:08Z) - Driving Context into Text-to-Text Privatization [0.0]
textitMetric Differential Privacyは、単語のベクトルにノイズを加えることによって、テキストからテキストへの民営化を可能にする。
分類精度が6.05%のかなり高いことを実証する。
論文 参考訳(メタデータ) (2023-06-02T11:33:06Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - A Differentially Private Text Perturbation Method Using a Regularized
Mahalanobis Metric [8.679020335206753]
プライバシを保存するテキスト分析の一般的なアプローチはノイズ注入であり、まずテキストデータを連続的な埋め込み空間にマッピングする。
本稿では,この問題を解決するために,マハラノビス計量の正規化変種を慎重に設計したテキスト摂動機構を提案する。
我々はこの指標に基づいてテキスト摂動アルゴリズムを提供し、そのプライバシー保証を正式に証明する。
論文 参考訳(メタデータ) (2020-10-22T23:06:44Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。