論文の概要: A Linear Reconstruction Approach for Attribute Inference Attacks against
Synthetic Data
- arxiv url: http://arxiv.org/abs/2301.10053v1
- Date: Tue, 24 Jan 2023 14:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 13:26:20.196739
- Title: A Linear Reconstruction Approach for Attribute Inference Attacks against
Synthetic Data
- Title(参考訳): 合成データに対する属性推論攻撃に対する線形再構成手法
- Authors: Meenatchi Sundaram Muthu Selva Annamalai, Andrea Gadotti and Luc
Rocher
- Abstract要約: 各種合成データ生成アルゴリズムにおいて,プライバシ保護と統計ユーティリティ保護のトレードオフを評価する。
属性推論攻撃は、ランダムに選択されたレコードでも非常に効果的であることを示す。
全体として、我々の研究結果は、合成データは他の匿名化技術と同様に、プライバシーとユーティリティのトレードオフの対象であることが証明されている。
- 参考スコア(独自算出の注目度): 0.9023847175654603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personal data collected at scale from surveys or digital devices offers
important insights for statistical analysis and scientific research. Safely
sharing such data while protecting privacy is however challenging.
Anonymization allows data to be shared while minimizing privacy risks, but
traditional anonymization techniques have been repeatedly shown to provide
limited protection against re-identification attacks in practice. Among modern
anonymization techniques, synthetic data generation (SDG) has emerged as a
potential solution to find a good tradeoff between privacy and statistical
utility. Synthetic data is typically generated using algorithms that learn the
statistical distribution of the original records, to then generate "artificial"
records that are structurally and statistically similar to the original ones.
Yet, the fact that synthetic records are "artificial" does not, per se,
guarantee that privacy is protected. In this work, we systematically evaluate
the tradeoffs between protecting privacy and preserving statistical utility for
a wide range of synthetic data generation algorithms. Modeling privacy as
protection against attribute inference attacks (AIAs), we extend and adapt
linear reconstruction attacks, which have not been previously studied in the
context of synthetic data. While prior work suggests that AIAs may be effective
only on few outlier records, we show they can be very effective even on
randomly selected records. We evaluate attacks on synthetic datasets ranging
from 10^3 to 10^6 records, showing that even for the same generative model, the
attack effectiveness can drastically increase when a larger number of synthetic
records is generated. Overall, our findings prove that synthetic data is
subject to privacy-utility tradeoffs just like other anonymization techniques:
when good utility is preserved, attribute inference can be a risk for many data
subjects.
- Abstract(参考訳): 調査やデジタルデバイスから大規模に収集された個人データは、統計分析や科学研究に重要な洞察を提供する。
しかし、プライバシーを守りながらデータを安全に共有することは難しい。
匿名化はプライバシーリスクを最小限にしながらデータを共有可能にするが、従来の匿名化技術は、実際には再識別攻撃に対する限定的な保護を提供するように繰り返し示されてきた。
現代の匿名化技術の中で、プライバシーと統計的ユーティリティの良好なトレードオフを見つけるための潜在的な解決策として、合成データ生成(SDG)が出現している。
合成データは通常、元のレコードの統計分布を学習するアルゴリズムを使用して生成され、元のレコードと構造的におよび統計的に類似した「人工的」レコードを生成する。
しかし、合成記録が「人工的」であるという事実は、プライバシーが保護されていることを保証しない。
本研究では,多種多様な合成データ生成アルゴリズムにおいて,プライバシ保護と統計ユーティリティ保護のトレードオフを体系的に評価する。
属性推論攻撃 (AIA) に対する保護としてプライバシをモデル化し, 従来研究されていない線形再構成攻撃を拡張し適応する。
先行研究では、AIAは少数の外れ値にのみ有効である可能性が示唆されているが、ランダムに選択されたレコードでも非常に有効であることが示されている。
また, 10^3 から 10^6 までの合成データセットに対する攻撃を評価し, 同じ生成モデルであっても, より多くの合成レコードが生成されると, 攻撃効果が劇的に増大することを示した。
全体として、我々の研究結果は、合成データは他の匿名化手法と同様にプライバシーとユーティリティのトレードオフの対象となることを証明している。
関連論文リスト
- Privacy-Preserving Data Synthetisation for Secure Information Sharing [2.362412515574206]
PrivateSMOTEは、再識別の最大のリスクにおいて、ケースを保護するための競争力のある手法である。
これは、データユーティリティ損失を最小限に抑えながら、高リスクケースを難読化するために、合成データ生成によって機能する。
生成的対向ネットワークや変分オートエンコーダなど、ベースラインと同等または高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-01T13:20:37Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z) - Defense Against Gradient Leakage Attacks via Learning to Obscure Data [48.67836599050032]
フェデレートラーニングは、効果的なプライバシー保護学習メカニズムと考えられている。
本稿では,不明瞭なデータに学習することで,クライアントのデータ保護のための新しい防御手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T21:03:28Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Bias Mitigated Learning from Differentially Private Synthetic Data: A
Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。
民営化確率比を用いた複数のバイアス緩和戦略を提案する。
バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T19:56:44Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文 参考訳(メタデータ) (2021-01-18T23:01:27Z) - Synthetic Data -- Anonymisation Groundhog Day [4.694549066382216]
本稿では,合成データ公開におけるプライバシ向上の定量的評価について述べる。
合成データは、推論攻撃を防ぎ、データの有用性を保たないことを示す。
従来の匿名化とは対照的に、合成データ公開のプライバシーとユーティリティのトレードオフは予測が難しい。
論文 参考訳(メタデータ) (2020-11-13T16:58:42Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。