論文の概要: Differentially-Private Data Synthetisation for Efficient Re-Identification Risk Control
- arxiv url: http://arxiv.org/abs/2212.00484v3
- Date: Tue, 23 Apr 2024 16:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 20:24:35.353933
- Title: Differentially-Private Data Synthetisation for Efficient Re-Identification Risk Control
- Title(参考訳): 効率的な再同定リスク制御のための微分原始データ合成
- Authors: Tânia Carvalho, Nuno Moniz, Luís Antunes, Nitesh Chawla,
- Abstract要約: $epsilon$-PrivateSMOTEは、再識別とリンケージ攻撃を防ぐためのテクニックである。
提案手法は,ノイズに起因した逆数による合成データ生成と,高リスクケースを難読化するための差分プライバシー原則を組み合わせたものである。
- 参考スコア(独自算出の注目度): 3.8811062755861956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Protecting user data privacy can be achieved via many methods, from statistical transformations to generative models. However, all of them have critical drawbacks. For example, creating a transformed data set using traditional techniques is highly time-consuming. Also, recent deep learning-based solutions require significant computational resources in addition to long training phases, and differentially private-based solutions may undermine data utility. In this paper, we propose $\epsilon$-PrivateSMOTE, a technique designed for safeguarding against re-identification and linkage attacks, particularly addressing cases with a high \sloppy re-identification risk. Our proposal combines synthetic data generation via noise-induced interpolation with differential privacy principles to obfuscate high-risk cases. We demonstrate how $\epsilon$-PrivateSMOTE is capable of achieving competitive results in privacy risk and better predictive performance when compared to multiple traditional and state-of-the-art privacy-preservation methods, including generative adversarial networks, variational autoencoders, and differential privacy baselines. We also show how our method improves time requirements by at least a factor of 9 and is a resource-efficient solution that ensures high performance without specialised hardware.
- Abstract(参考訳): ユーザデータのプライバシ保護は、統計変換から生成モデルに至るまで、多くの方法で達成できる。
しかし、いずれも重大な欠点がある。
例えば、従来のテクニックを使って変換されたデータセットを作成するのは非常に時間がかかる。
また、近年のディープラーニングベースのソリューションは、長期トレーニングフェーズに加えて、重要な計算資源を必要としており、微分プライベートベースのソリューションはデータユーティリティを損なう可能性がある。
本稿では,再識別やリンケージ攻撃の防止を目的とした手法である$\epsilon$-PrivateSMOTEを提案する。
本提案では,ノイズによる補間による合成データ生成と,高リスクケースを難読化するための差分プライバシー原則を組み合わせる。
我々は、$\epsilon$-PrivateSMOTEが、ジェネレーティブ・敵ネットワーク、変分オートエンコーダ、差分プライバシーベースラインを含む、複数の従来および最先端のプライバシ保存手法と比較して、プライバシーリスクと予測性能の競争的な結果を達成することができることを実証した。
また,本手法が時間要求を少なくとも9倍改善し,特別なハードウェアを使わずに高い性能を実現するための資源効率のソリューションであることを示す。
関連論文リスト
- Masked Differential Privacy [64.32494202656801]
本稿では,差分プライバシーを適用した機密領域を制御できる「マスク型差分プライバシー(DP)」という効果的なアプローチを提案する。
提案手法はデータに基づいて選択的に動作し,DPアプリケーションや差分プライバシーをデータサンプル内の他のプライバシー技術と組み合わせることなく,非感性時間領域を定義できる。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Privacy-preserving datasets by capturing feature distributions with Conditional VAEs [0.11999555634662634]
条件付き変分オートエンコーダ(CVAE)は、大きな事前学習された視覚基盤モデルから抽出された特徴ベクトルに基づいて訓練される。
本手法は, 医用領域と自然画像領域の両方において, 従来のアプローチよりも優れている。
結果は、データスカースおよびプライバシに敏感な環境におけるディープラーニングアプリケーションに大きな影響を与える生成モデルの可能性を強調している。
論文 参考訳(メタデータ) (2024-08-01T15:26:24Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Breaking the Communication-Privacy-Accuracy Tradeoff with
$f$-Differential Privacy [51.11280118806893]
サーバが複数のユーザの協調的なデータ分析を,プライバシの懸念と限られた通信能力で調整する,フェデレートされたデータ分析問題を考える。
有限出力空間を有する離散値機構の局所的差分プライバシー保証を$f$-differential privacy (DP) レンズを用いて検討する。
より具体的には、様々な離散的評価機構の厳密な$f$-DP保証を導出することにより、既存の文献を前進させる。
論文 参考訳(メタデータ) (2023-02-19T16:58:53Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Efficient Logistic Regression with Local Differential Privacy [0.0]
モノのインターネット(Internet of Things)デバイスは急速に拡大し、大量のデータを生み出している。
これらのデバイスから収集されたデータを探索する必要性が高まっている。
コラボレーション学習は、モノのインターネット(Internet of Things)設定に戦略的ソリューションを提供すると同時に、データのプライバシに関する一般の懸念も引き起こす。
論文 参考訳(メタデータ) (2022-02-05T22:44:03Z) - Linear Model with Local Differential Privacy [0.225596179391365]
プライバシ保護技術は、さまざまな機関間で分散データを解析するために広く研究されている。
セキュアなマルチパーティ計算は、プライバシ保護のために、高いプライバシレベルで、高コストで広く研究されている。
マトリクスマスキング技術は、悪意のある敵に対するセキュアなスキームを暗号化するために用いられる。
論文 参考訳(メタデータ) (2022-02-05T01:18:00Z) - PEARL: Data Synthesis via Private Embeddings and Adversarial
Reconstruction Learning [1.8692254863855962]
本稿では, 深層生成モデルを用いたデータ・フレームワークを, 差分的にプライベートな方法で提案する。
当社のフレームワークでは、センシティブなデータは、厳格なプライバシ保証をワンショットで行うことで衛生化されています。
提案手法は理論的に性能が保証され,複数のデータセットに対する経験的評価により,提案手法が適切なプライバシーレベルで他の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-08T18:00:01Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z) - P3GM: Private High-Dimensional Data Release via Privacy Preserving
Phased Generative Model [23.91327154831855]
本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。
P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。
最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
論文 参考訳(メタデータ) (2020-06-22T09:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。