論文の概要: Just Rewrite It Again: A Post-Processing Method for Enhanced Semantic Similarity and Privacy Preservation of Differentially Private Rewritten Text
- arxiv url: http://arxiv.org/abs/2405.19831v1
- Date: Thu, 30 May 2024 08:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:18:46.715968
- Title: Just Rewrite It Again: A Post-Processing Method for Enhanced Semantic Similarity and Privacy Preservation of Differentially Private Rewritten Text
- Title(参考訳): もう一度書き直す: 意味的類似性向上のための後処理手法と差分的私的書き直しテキストのプライバシー保護
- Authors: Stephen Meisenbacher, Florian Matthes,
- Abstract要約: 本稿では,書き直したテキストを元のテキストと整合させることを目標とした,簡単な後処理手法を提案する。
以上の結果から,このような手法は,従来の入力よりも意味論的に類似した出力を生成するだけでなく,経験的プライバシ評価において平均的なスコアがよいテキストを生成することが示唆された。
- 参考スコア(独自算出の注目度): 3.3916160303055567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The study of Differential Privacy (DP) in Natural Language Processing often views the task of text privatization as a $\textit{rewriting}$ task, in which sensitive input texts are rewritten to hide explicit or implicit private information. In order to evaluate the privacy-preserving capabilities of a DP text rewriting mechanism, $\textit{empirical privacy}$ tests are frequently employed. In these tests, an adversary is modeled, who aims to infer sensitive information (e.g., gender) about the author behind a (privatized) text. Looking to improve the empirical protections provided by DP rewriting methods, we propose a simple post-processing method based on the goal of aligning rewritten texts with their original counterparts, where DP rewritten texts are rewritten $\textit{again}$. Our results shown that such an approach not only produces outputs that are more semantically reminiscent of the original inputs, but also texts which score on average better in empirical privacy evaluations. Therefore, our approach raises the bar for DP rewriting methods in their empirical privacy evaluations, providing an extra layer of protection against malicious adversaries.
- Abstract(参考訳): 自然言語処理における微分プライバシ(DP)の研究は、テキストのプライベート化のタスクを$\textit{rewriting}$タスクとみなし、機密性の高い入力テキストを書き換えて、明示的または暗黙的なプライベート情報を隠す。
DPテキスト書き換え機構のプライバシ保存機能を評価するために、$\textit{empirical privacy}$ testが頻繁に使用される。
これらのテストでは、敵対者が、(民営化)テキストの背後にある著者に関するセンシティブな情報(例えば、性別)を推測することを目的として、モデル化される。
DP書き換え法によって提供される経験的保護を改善するために,DP書き換え文を元のテキストと整合させることを目的とし,簡単な後処理手法を提案する。
以上の結果から,このような手法は,本来の入力を意味的に反映した出力を生成するだけでなく,経験的プライバシ評価において平均的なスコアがよいテキストを生成することが示唆された。
そこで本手法は,DP書き換え手法の実証的プライバシ評価における限界を高め,悪意のある敵に対する保護の余分なレイヤを提供する。
関連論文リスト
- TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [84.08181780666698]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。
提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。
TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文 参考訳(メタデータ) (2024-11-01T04:41:00Z) - DP-MLM: Differentially Private Text Rewriting Using Masked Language Models [4.637328271312331]
マスク付き言語モデル(MLMs)を利用した個人用テキストの書き直し手法を提案する。
これをシンプルな文脈化手法で実現し、テキストを一度に1つのトークンを書き直す。
エンコーダのみの保存技術を利用することで,従来の方法と比較して,より低い値のvarepsilon$レベルで有効性が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-30T09:31:01Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [55.20137833039499]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
論文 参考訳(メタデータ) (2024-06-06T05:07:44Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models [63.91178922306669]
大規模言語モデル(LLM)に対するテキスト保護機構であるSilent Guardianを紹介する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
本研究では,SGがターゲットテキストを種々の構成で効果的に保護し,保護成功率の約100%を達成できることを示す。
論文 参考訳(メタデータ) (2023-12-15T10:30:36Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - DP-BART for Privatized Text Rewriting under Local Differential Privacy [2.45626162429986]
本稿では,既存の LDP システムに大きく勝る新システム "DP-BART" を提案する。
提案手法では,新たなクリッピング手法,反復的プルーニング,およびDP保証に必要なノイズを劇的に低減する内部表現の訓練を用いる。
論文 参考訳(メタデータ) (2023-02-15T13:07:34Z) - DP-Rewrite: Towards Reproducibility and Transparency in Differentially
Private Text Rewriting [2.465904360857451]
本稿では,DP-Rewriteについて紹介する。
システムには、さまざまなダウンストリームデータセット、モデル、事前学習手順、評価指標が組み込まれています。
本稿では,ADePT DPテキスト書き換えシステムの事例研究として,事前学習アプローチにおけるプライバシー漏洩を検出する実験について述べる。
論文 参考訳(メタデータ) (2022-08-22T15:38:16Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Privacy Guarantees for De-identifying Text Transformations [17.636430224292866]
我々は、差分プライバシーに基づいて、テキスト変換に基づく復号化手法の正式なプライバシー保証を導出する。
複数の自然言語理解タスクにおける深層学習モデルを用いた,より洗練された単語間置換手法との比較を行った。
単語ごとの置換だけが、様々なタスクのパフォーマンス低下に対して堅牢であることに気付きました。
論文 参考訳(メタデータ) (2020-08-07T12:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。