論文の概要: Differential Privacy for Text Analytics via Natural Text Sanitization
- arxiv url: http://arxiv.org/abs/2106.01221v1
- Date: Wed, 2 Jun 2021 15:15:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:26:24.029985
- Title: Differential Privacy for Text Analytics via Natural Text Sanitization
- Title(参考訳): 自然テキスト衛生化によるテキスト分析のための微分プライバシー
- Authors: Xiang Yue, Minxin Du, Tianhao Wang, Yaliang Li, Huan Sun and Sherman
S. M. Chow
- Abstract要約: 本稿では,本論文のテキスト・サニタイズへの直接的なアプローチとして,新たなローカルDP概念による感度と類似性を考察する。
衛生化されたテキストは、我々の衛生に配慮した事前訓練と微調整にも貢献し、将来性のあるユーティリティを備えたBERT言語モデル上でのプライバシー保護自然言語処理を可能にします。
- 参考スコア(独自算出の注目度): 44.95170585853761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Texts convey sophisticated knowledge. However, texts also convey sensitive
information. Despite the success of general-purpose language models and
domain-specific mechanisms with differential privacy (DP), existing text
sanitization mechanisms still provide low utility, as cursed by the
high-dimensional text representation. The companion issue of utilizing
sanitized texts for downstream analytics is also under-explored. This paper
takes a direct approach to text sanitization. Our insight is to consider both
sensitivity and similarity via our new local DP notion. The sanitized texts
also contribute to our sanitization-aware pretraining and fine-tuning, enabling
privacy-preserving natural language processing over the BERT language model
with promising utility. Surprisingly, the high utility does not boost up the
success rate of inference attacks.
- Abstract(参考訳): テキストは高度な知識を提供する。
しかし、テキストは機密情報も伝達する。
汎用言語モデルと差分プライバシー(DP)によるドメイン固有メカニズムの成功にもかかわらず、既存のテキスト衛生機構は高次元のテキスト表現によって呪われているように、依然として低実用性を提供する。
下流分析に衛生的テキストを利用するという副次的な問題も未調査である。
本論文は,テキスト衛生への直接的なアプローチである。
私たちの洞察は、新しいローカルdp概念を通じて感度と類似性の両方を検討することです。
衛生化されたテキストは、私たちの衛生に配慮した事前訓練と微調整にも貢献し、将来性のあるユーティリティを備えたBERT言語モデル上でのプライバシー保護自然言語処理を可能にします。
驚くべきことに、高いユーティリティは推論攻撃の成功率を高めません。
関連論文リスト
- On the Vulnerability of Text Sanitization [60.162007426724564]
テキストの衛生化を目的とした理論的に最適な再構築攻撃を提案する。
衛生性能を評価するためのベンチマークとして, ASR のバウンダリを導出する。
我々の攻撃の1つは、最先端のベースラインよりもASRが46.4%向上したことである。
論文 参考訳(メタデータ) (2024-10-22T14:31:53Z) - NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [55.20137833039499]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
論文 参考訳(メタデータ) (2024-06-06T05:07:44Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - LLM-Assisted Content Conditional Debiasing for Fair Text Embedding [37.92120550031469]
本稿では,公正なテキスト埋め込みを学習するための新しい手法を提案する。
テキスト埋め込みのための新しい内容条件等距離(CCED)フェアネスを定義する。
また,異なる感度属性を持つテキストの埋め込みが,対応する中性テキストの埋め込みから同じ距離を保っていることを保証するために,コンテンツ条件脱バイアス(CCD)の損失も導入する。
論文 参考訳(メタデータ) (2024-02-22T01:20:51Z) - Text Sanitization Beyond Specific Domains: Zero-Shot Redaction &
Substitution with Large Language Models [0.0]
本稿では,大規模言語モデルを用いて潜在的に敏感な情報を検出・置換するゼロショットテキスト衛生手法を提案する。
本手法は,テキストコヒーレンスとコンテキスト情報を維持しながら,プライバシ保護に優れることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:42:37Z) - Disentangling the Linguistic Competence of Privacy-Preserving BERT [0.0]
差別化プライバシ(DP)は、テキストからテキストへの民営化というユニークな課題に対処するために調整されている。
我々は、摂動前文で訓練されたBERTから抽出した内部表現に対して、一連の解釈手法を用いる。
この相違点を解き放つために探索的タスクを用いることで、テキストからテキストへの民営化がいくつかの形式主義における言語能力に影響を及ぼす証拠を見出す。
論文 参考訳(メタデータ) (2023-10-17T16:00:26Z) - Are Your Explanations Reliable? Investigating the Stability of LIME in
Explaining Text Classifiers by Marrying XAI and Adversarial Attack [11.437660523661338]
LIMEは、説明可能なAI(XAI)フレームワークで最も一般的に参照されるツールの1つとして登場した。
本稿では,テキストデータにおけるLIMEの本質的不安定性をまず評価し,ベースラインを確立する。
次に,テキスト入力を摂動する新しいアルゴリズムXAIFoolerを提案し,テキスト摂動最適化問題としてLIMEの安定性について検討する。
論文 参考訳(メタデータ) (2023-05-21T05:06:46Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。