論文の概要: Crowdsourcing on Sensitive Data with Privacy-Preserving Text Rewriting
- arxiv url: http://arxiv.org/abs/2303.03053v1
- Date: Mon, 6 Mar 2023 11:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:13:25.843478
- Title: Crowdsourcing on Sensitive Data with Privacy-Preserving Text Rewriting
- Title(参考訳): プライバシ保護によるテキスト書き直しによる感性データのクラウドソーシング
- Authors: Nina Mouhammad, Johannes Daxenberger, Benjamin Schiller, Ivan Habernal
- Abstract要約: データラベリングは、スケーラビリティの理由から、クラウドソーシングプラットフォーム上で行われることが多い。
公開プラットフォームにデータを公開するのは、プライバシ関連の情報が含まれていない場合に限られる。
個人識別可能な情報(PII)を削除したり、差分プライバシ(DP)書き換えを行ったりすることで、クラウドソーシングにプライバシ関連情報を用いたテキストを利用できるかを検討する。
- 参考スコア(独自算出の注目度): 9.409281517596396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most tasks in NLP require labeled data. Data labeling is often done on
crowdsourcing platforms due to scalability reasons. However, publishing data on
public platforms can only be done if no privacy-relevant information is
included. Textual data often contains sensitive information like person names
or locations. In this work, we investigate how removing personally identifiable
information (PII) as well as applying differential privacy (DP) rewriting can
enable text with privacy-relevant information to be used for crowdsourcing. We
find that DP-rewriting before crowdsourcing can preserve privacy while still
leading to good label quality for certain tasks and data. PII-removal led to
good label quality in all examined tasks, however, there are no privacy
guarantees given.
- Abstract(参考訳): NLPのほとんどのタスクはラベル付きデータを必要とする。
データラベリングは、スケーラビリティの理由から、クラウドソーシングプラットフォームで行われることが多い。
しかし、公開プラットフォーム上でのデータ公開は、プライバシー関連の情報が含まれていない場合にのみ行うことができる。
テキストデータは、人名や場所などの機密情報を含むことが多い。
本研究では,個人識別可能な情報 (PII) の削除と差分プライバシー (DP) の書き換えにより,クラウドソーシングにプライバシ関連情報を用いたテキストを利用できるかを検討する。
クラウドソーシング前のdpリライトはプライバシを保ちながら,特定のタスクやデータのラベル品質を向上できることが分かっています。
PII除去はすべての検査作業において良好なラベル品質をもたらすが、プライバシー保証はない。
関連論文リスト
- Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [55.20137833039499]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
論文 参考訳(メタデータ) (2024-06-06T05:07:44Z) - Personalized Differential Privacy for Ridge Regression [3.4751583941317166]
我々はPDP-OP(Personalized-DP Output Perturbation Method)を導入し、データポイントごとのプライバシレベルに応じてリッジ回帰モデルのトレーニングを可能にする。
我々は、PDP-OPの厳密なプライバシー証明と、結果モデルの正確性を保証する。
我々はPDP-OPがJorgensenらのパーソナライズされたプライバシー技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-30T16:00:14Z) - Honesty is the Best Policy: On the Accuracy of Apple Privacy Labels Compared to Apps' Privacy Policies [13.771909487087793]
Appleは2020年12月に、アプリのプライバシー動作を報告するためのプライバシーラベルを導入した。
Appleはラベルを検証していないが、開発者は重要な比較ポイントを提供するプライバシーポリシーを提供する必要がある。
BERTベースの言語モデルを微調整して,iOS App Storeの474,669アプリのプライバシポリシ機能を抽出しました。
論文 参考訳(メタデータ) (2023-06-29T16:10:18Z) - The Overview of Privacy Labels and their Compatibility with Privacy
Policies [24.871967983289117]
プライバシ栄養ラベルは、長く読みにくいプライバシポリシを読むことなく、アプリの重要なデータプラクティスを理解する方法を提供する。
Apple(アップル)とGoogle(グーグル)は、アプリ開発者がプライバシーに関する慣行を強調したプライバシー保護ラベルを埋めることを義務付けている。
論文 参考訳(メタデータ) (2023-03-14T20:10:28Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Privacy-Aware Crowd Labelling for Machine Learning Tasks [3.6930948691311007]
クラウドソーシングに基づく各種アプリケーションのためのプライバシ保護テキストラベリング手法を提案する。
我々は、異なるレベルのプライバシーでテキストを変換し、ラベルの相関と一貫性に関する変換の有効性を分析する。
論文 参考訳(メタデータ) (2022-02-03T18:14:45Z) - Privacy Amplification via Shuffling for Linear Contextual Bandits [51.94904361874446]
ディファレンシャルプライバシ(DP)を用いた文脈線形バンディット問題について検討する。
プライバシのシャッフルモデルを利用して,JDP と LDP のプライバシ/ユーティリティトレードオフを実現することができることを示す。
以上の結果から,ローカルプライバシを保ちながらシャッフルモデルを活用することで,JDPとDPのトレードオフを得ることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T15:23:28Z) - BeeTrace: A Unified Platform for Secure Contact Tracing that Breaks Data
Silos [73.84437456144994]
接触追跡は、新型コロナウイルスなどの感染症の拡散を制御する重要な方法である。
現在のソリューションでは、ビジネスデータベースや個々のデジタルデバイスに格納された大量のデータを利用できません。
データサイロを破り、プライバシーの目標を保証するために最先端の暗号化プロトコルをデプロイする統合プラットフォームであるBeeTraceを提案する。
論文 参考訳(メタデータ) (2020-07-05T10:33:45Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。