論文の概要: NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human
- arxiv url: http://arxiv.org/abs/2406.03749v1
- Date: Thu, 6 Jun 2024 05:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 18:15:59.972796
- Title: NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human
- Title(参考訳): NAP^2:人間の学習による自然性・プライバシー保護テキストの書き直しベンチマーク
- Authors: Shuo Huang, William MacLean, Xiaoxi Kang, Anqi Wu, Lizhen Qu, Qiongkai Xu, Zhuang Li, Xingliang Yuan, Gholamreza Haffari,
- Abstract要約: 我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
- 参考スコア(独自算出の注目度): 55.20137833039499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increasing concerns about privacy leakage issues in academia and industry arise when employing NLP models from third-party providers to process sensitive texts. To protect privacy before sending sensitive data to those models, we suggest sanitizing sensitive text using two common strategies used by humans: i) deleting sensitive expressions, and ii) obscuring sensitive details by abstracting them. To explore the issues and develop a tool for text rewriting, we curate the first corpus, coined NAP^2, through both crowdsourcing and the use of large language models (LLMs). Compared to the prior works based on differential privacy, which lead to a sharp drop in information utility and unnatural texts, the human-inspired approaches result in more natural rewrites and offer an improved balance between privacy protection and data utility, as demonstrated by our extensive experiments.
- Abstract(参考訳): 学術や業界におけるプライバシー漏洩問題への懸念が高まっているのは、サードパーティプロバイダのNLPモデルを使用して機密テキストを処理する場合である。
これらのモデルに機密データを送信する前にプライバシを保護するために、人間による2つの一般的な戦略を用いて機密テキストを衛生化することを提案する。
一 繊細な表現を削除すること、及び
二 機密事項を抽象化して隠蔽すること。
そこで本研究では,クラウドソーシングと大規模言語モデル(LLM)の利用を通じて,最初のコーパスであるNAP^2をキュレートする。
情報ユーティリティと不自然なテキストの急激な減少につながる、差分プライバシーに基づく以前の研究と比較すると、人間にインスパイアされたアプローチは、より自然な書き直しをもたらし、プライバシー保護とデータユーティリティのバランスを改善する。
関連論文リスト
- Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text
Ambiguation to Expand Mental Health Care Delivery [52.73936514734762]
ChatGPTは人間のような対話を生成する能力で人気を集めている。
データに敏感なドメインは、プライバシとデータ所有に関する懸念から、ChatGPTを使用する際の課題に直面している。
ユーザのプライバシーを守るためのテキスト曖昧化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T02:09:52Z) - Planting and Mitigating Memorized Content in Predictive-Text Language
Models [11.911353678499008]
言語モデルは、ユーザ製品に自動テキスト補完サービスを提供するために広くデプロイされている。
近年の研究では、言語モデルがプライベートトレーニングデータを記憶するかなりのリスクを負っていることが明らかになっている。
本研究では,機密テキストの意図しない暗記を緩和するために,プライバシー保護手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-12-16T17:57:14Z) - User-Entity Differential Privacy in Learning Natural Language Models [46.177052564590646]
自然言語モデル(NLM)の学習において,テキストデータにおけるセンシティブなエンティティとデータ所有者の両方に対して,形式的なプライバシ保護を実現するために,UeDP(User-entity differential privacy)という新しい概念を導入する。
UeDPを保存するためにUeDP-Algと呼ばれる新しいアルゴリズムを開発し、ユーザとセンシティブなエンティティサンプリングプロセスをシームレスに組み合わせることで、密接な境界感度でプライバシ損失とモデルユーティリティのトレードオフを最適化した。
我々のUeDP-Algは、ベンチマークデータセットを用いて、複数のNLMタスクにおいて、同一のプライバシ予算消費の下でモデルユーティリティのベースラインアプローチより優れていることを示す理論分析と評価を行った。
論文 参考訳(メタデータ) (2022-11-01T16:54:23Z) - Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。
提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文 参考訳(メタデータ) (2022-10-25T21:21:17Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - CAPE: Context-Aware Private Embeddings for Private Language Learning [0.5156484100374058]
Context-Aware Private Embeddings (CAPE)は、埋め込みのトレーニング中にプライバシを保存する新しいアプローチである。
CAPEはディファレンシャルプライバシを通じて校正ノイズを適用し、機密情報を隠蔽しながらエンコードされたセマンティックリンクを保存する。
実験結果から,提案手法は単一介入よりも情報漏洩を低減させることが示された。
論文 参考訳(メタデータ) (2021-08-27T14:50:12Z) - Privacy-Adaptive BERT for Natural Language Understanding [20.821155542969947]
BERTを用いたローカルプライバシ設定下でのNLUモデルの有効性向上について検討する。
本稿では,プライバシ対応lmプリトレーニング手法を提案し,民営化テキスト入力におけるモデル性能を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2021-04-15T15:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。