論文の概要: A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage
- arxiv url: http://arxiv.org/abs/2504.21035v1
- Date: Mon, 28 Apr 2025 01:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.701741
- Title: A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage
- Title(参考訳): プライバシの虚偽感覚:表面レベルのプライバシリークを超えてテキストデータのサニタイズを評価する
- Authors: Rui Xin, Niloofar Mireshghallah, Shuyue Stella Li, Michael Duan, Hyunwoo Kim, Yejin Choi, Yulia Tsvetkov, Sewoong Oh, Pang Wei Koh,
- Abstract要約: 我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
- 参考スコア(独自算出の注目度): 77.83757117924995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sanitizing sensitive text data typically involves removing personally identifiable information (PII) or generating synthetic data under the assumption that these methods adequately protect privacy; however, their effectiveness is often only assessed by measuring the leakage of explicit identifiers but ignoring nuanced textual markers that can lead to re-identification. We challenge the above illusion of privacy by proposing a new framework that evaluates re-identification attacks to quantify individual privacy risks upon data release. Our approach shows that seemingly innocuous auxiliary information -- such as routine social activities -- can be used to infer sensitive attributes like age or substance use history from sanitized data. For instance, we demonstrate that Azure's commercial PII removal tool fails to protect 74\% of information in the MedQA dataset. Although differential privacy mitigates these risks to some extent, it significantly reduces the utility of the sanitized text for downstream tasks. Our findings indicate that current sanitization techniques offer a \textit{false sense of privacy}, highlighting the need for more robust methods that protect against semantic-level information leakage.
- Abstract(参考訳): 機密テキストデータの衛生には、一般的に個人識別可能な情報(PII)を削除したり、これらの手法がプライバシーを適切に保護していると仮定して合成データを生成することが含まれるが、それらの有効性は明示的な識別子の漏洩を測定することによってのみ評価される。
我々は、データリリース時の個人のプライバシーリスクを定量化する再識別攻撃を評価する新しいフレームワークを提案することで、上記のプライバシーの錯覚に挑戦する。
我々のアプローチは、日常的な社会活動のような一見無害な補助情報を用いて、衛生データから年齢や物質使用履歴などのセンシティブな属性を推測できることを示している。
例えば、Azureの商用PII削除ツールは、MedQAデータセットの74\%の情報を保護することができないことを実証しています。
差分プライバシーはこれらのリスクをある程度軽減するが、下流タスクに対する衛生的テキストの有用性を著しく低下させる。
以上の結果から,現在の衛生技術は,セマンティックレベルの情報漏洩を防ぐために,より堅牢な方法の必要性を浮き彫りにしている。
関連論文リスト
- Investigating Vulnerabilities of GPS Trip Data to Trajectory-User Linking Attacks [49.1574468325115]
単一旅行からなるGPS旅行データセットにおいて,ユーザ識別子を再構築する新たな攻撃を提案する。
個人識別が削除された場合でも再識別のリスクは大きい。
さらなる調査では、少数の人しか訪れていない場所を頻繁に訪れているユーザーは、再識別に弱い傾向にあることが示されている。
論文 参考訳(メタデータ) (2025-02-12T08:54:49Z) - Enforcing Demographic Coherence: A Harms Aware Framework for Reasoning about Private Data Release [14.939460540040459]
データプライバシに必要であると主張するプライバシ攻撃にインスパイアされた、人口統計コヒーレンスを導入します。
我々のフレームワークは信頼性評価予測に重点を置いており、ほぼすべてのデータインフォームドプロセスから蒸留することができる。
差分的にプライベートなデータリリースはすべて、人口統計学的にコヒーレントであること、および、差分的にプライベートではない人口統計学的にコヒーレントなアルゴリズムがあることを実証する。
論文 参考訳(メタデータ) (2025-02-04T20:42:30Z) - Activity Recognition on Avatar-Anonymized Datasets with Masked Differential Privacy [64.32494202656801]
プライバシを保存するコンピュータビジョンは、機械学習と人工知能において重要な問題である。
本稿では,ビデオデータセット中の感性のある被験者を文脈内の合成アバターに置き換える匿名化パイプラインを提案する。
また、匿名化されていないがプライバシーに敏感な背景情報を保護するため、MaskDPを提案する。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - A Summary of Privacy-Preserving Data Publishing in the Local Setting [0.6749750044497732]
統計開示制御は、機密情報を匿名化して暴露するリスクを最小限にすることを目的としている。
マイクロデータの復号化に使用される現在のプライバシ保存技術について概説し、様々な開示シナリオに適したプライバシ対策を掘り下げ、情報損失と予測性能の指標を評価する。
論文 参考訳(メタデータ) (2023-12-19T04:23:23Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - Slice it up: Unmasking User Identities in Smartwatch Health Data [1.4797368693230672]
本稿では、時系列健康データに対する類似性に基づく動的時間ワープ(DTW)再識別攻撃のための新しいフレームワークを提案する。
私たちの攻撃はトレーニングデータとは独立しており、1つのCPUコア上で1万の被験者に対して約2分で類似性ランキングを計算します。
論文 参考訳(メタデータ) (2023-08-16T12:14:50Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Hiding Visual Information via Obfuscating Adversarial Perturbations [47.315523613407244]
本稿では,データの視覚的プライバシを保護するために,敵対的な視覚情報隠蔽手法を提案する。
具体的には、データの視覚情報を隠蔽する難読化対向摂動を生成する。
認識・分類タスクの実験結果から,提案手法が視覚情報を効果的に隠蔽できることが示唆された。
論文 参考訳(メタデータ) (2022-09-30T08:23:26Z) - Decouple-and-Sample: Protecting sensitive information in task agnostic
data release [17.398889291769986]
sanitizerはセキュアでタスクに依存しないデータリリースのためのフレームワークである。
機密情報をプライベートに合成できれば、より優れたプライバシーとユーティリティのトレードオフが達成できることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:15:33Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - Subverting Privacy-Preserving GANs: Hiding Secrets in Sanitized Images [13.690485523871855]
最先端のアプローチでは、プライバシ保護による生成的敵ネットワーク(PP-GAN)を使用して、ユーザのアイデンティティを漏洩することなく、信頼できる表情認識を可能にする。
PP-GANの高感度化出力画像に機密識別データを隠蔽して後で抽出できることを示す。
論文 参考訳(メタデータ) (2020-09-19T19:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。