論文の概要: Assessing the risk of re-identification arising from an attack on
anonymised data
- arxiv url: http://arxiv.org/abs/2203.16921v1
- Date: Thu, 31 Mar 2022 09:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:10:47.197281
- Title: Assessing the risk of re-identification arising from an attack on
anonymised data
- Title(参考訳): 匿名化データに対する攻撃による再同定のリスクの評価
- Authors: Anna Antoniou, Giacomo Dossena, Julia MacMillan, Steven Hamblin, David
Clifton, Paula Petrone
- Abstract要約: 悪意のある攻撃から匿名化されたデータセットへの再識別のリスクを計算する。
そこで本研究では,k匿名化データセットにおける1人の患者の再同定の確率を推定する分析手法を提案する。
我々はこの解法を一般化し、複数の患者が再同定される確率を得る。
- 参考スコア(独自算出の注目度): 0.24466725954625884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: The use of routinely-acquired medical data for research purposes
requires the protection of patient confidentiality via data anonymisation. The
objective of this work is to calculate the risk of re-identification arising
from a malicious attack to an anonymised dataset, as described below. Methods:
We first present an analytical means of estimating the probability of
re-identification of a single patient in a k-anonymised dataset of Electronic
Health Record (EHR) data. Second, we generalize this solution to obtain the
probability of multiple patients being re-identified. We provide synthetic
validation via Monte Carlo simulations to illustrate the accuracy of the
estimates obtained. Results: The proposed analytical framework for risk
estimation provides re-identification probabilities that are in agreement with
those provided by simulation in a number of scenarios. Our work is limited by
conservative assumptions which inflate the re-identification probability.
Discussion: Our estimates show that the re-identification probability increases
with the proportion of the dataset maliciously obtained and that it has an
inverse relationship with the equivalence class size. Our recursive approach
extends the applicability domain to the general case of a multi-patient
re-identification attack in an arbitrary k-anonymisation scheme. Conclusion: We
prescribe a systematic way to parametrize the k-anonymisation process based on
a pre-determined re-identification probability. We observed that the benefits
of a reduced re-identification risk that come with increasing k-size may not be
worth the reduction in data granularity when one is considering benchmarking
the re-identification probability on the size of the portion of the dataset
maliciously obtained by the adversary.
- Abstract(参考訳): 目的: 日常的に取得した医療データを研究目的に利用するためには,データの匿名化による患者の機密性を保護する必要がある。
この研究の目的は、悪意のある攻撃から匿名化されたデータセットへの再識別のリスクを計算することである。
方法:電子健康記録(EHR)データのk匿名化データセットにおいて,1人の患者の再同定の確率を推定する分析手段をまず提示する。
第二に、この解法を一般化し、複数の患者が再同定される確率を得る。
モンテカルロシミュレーションによる合成検証を行い,得られた推定値の精度を示す。
結果: リスク推定のための分析フレームワークは, シミュレーションによって提供されるものと一致した再同定確率を, 様々なシナリオで提供する。
我々の仕事は再同定確率を膨らませる保守的な仮定によって制限される。
考察:我々の推定では,データセットの比率が悪用された場合に再同定確率が増加し,同値クラスサイズと逆相関があることが示されている。
この再帰的アプローチは、任意のk-匿名化スキームにおける複数患者再特定攻撃の一般的なケースに応用可能性ドメインを拡張する。
結論: 事前決定された再同定確率に基づいてk匿名化過程をパラメトリズする方法を定式化する。
kサイズの増加に伴う再識別リスクの低減の利点は、敵が悪意を持って取得したデータセットの一部のサイズに対する再識別確率のベンチマークを検討する場合、データ粒度を低下させる価値がない可能性がある。
関連論文リスト
- Practical and Ready-to-Use Methodology to Assess the re-identification Risk in Anonymized Datasets [1.4732811715354455]
本稿では,再同定リスク評価のための実用的で使いやすい手法を提案する。
サイバーセキュリティ分野で長年使われてきた、よく知られたリスク分析手法(例えばEBIOS)に従うのは、これが初めてである。
論文 参考訳(メタデータ) (2025-01-18T18:22:27Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
この設定では、一般化されたクロスバリデーション推定器(GCV)がサンプル外リスクを正確に予測できないことを示す。
さらに、テストポイントがトレーニングセットと非自明な相関を持つ場合、時系列予測でしばしば発生する設定にまで分析を拡張します。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Ex-Ante Assessment of Discrimination in Dataset [20.574371560492494]
データ所有者は、自分たちのデータの使用が過小評価されているコミュニティにどのように害を与えるかという責任を負う。
本稿では, 個人の反応が感性特性によってどの程度異なるかを示すスコアを生成する, 決定トレエのForest of decision trEEsアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-16T19:28:22Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - Individual dynamic prediction of clinical endpoint from large
dimensional longitudinal biomarker history: a landmark approach [0.0]
本稿では,多種多様なマーカーの繰り返し測定を活用できる健康事象の動的予測手法を提案する。
Rで実施した手法により,繰り返しマーカーの数が多い場合でも,患者の縦断的履歴全体を用いた事象の予測が可能となった。
論文 参考訳(メタデータ) (2021-02-02T12:36:18Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Systematic Evaluation of Privacy Risks of Machine Learning Models [41.017707772150835]
メンバーシップ推論攻撃に対する事前の取り組みは、プライバシーリスクを著しく過小評価する可能性があることを示す。
まず、既存の非ニューラルネットワークベースの推論攻撃を改善することで、メンバーシップ推論のプライバシリスクをベンチマークする。
次に、プライバシリスクスコアと呼ばれる新しい指標を定式化し、導出することで、詳細なプライバシ分析のための新しいアプローチを導入する。
論文 参考訳(メタデータ) (2020-03-24T00:53:53Z) - Orthogonal Statistical Learning [49.55515683387805]
人口リスクが未知のニュアンスパラメータに依存するような環境では,統計学習における非漸近的過剰リスク保証を提供する。
人口リスクがNeymanityと呼ばれる条件を満たす場合,メタアルゴリズムによって達成される過剰リスクに対するニュアンス推定誤差の影響は2次であることを示す。
論文 参考訳(メタデータ) (2019-01-25T02:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。