論文の概要: An Algorithmic Pipeline for GDPR-Compliant Healthcare Data Anonymisation: Moving Toward Standardisation
- arxiv url: http://arxiv.org/abs/2506.02942v1
- Date: Tue, 03 Jun 2025 14:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.797818
- Title: An Algorithmic Pipeline for GDPR-Compliant Healthcare Data Anonymisation: Moving Toward Standardisation
- Title(参考訳): GDPR互換医療データ匿名化のためのアルゴリズムパイプライン:標準化に向けて
- Authors: Hamza Khan, Lore Menten, Liesbet M. Peeters,
- Abstract要約: 一般の準識別器(QID)と機密属性(SA)は実装が複雑である。
データユーティリティを保ちながら、コンプライアンスのためのRWD匿名化を標準化することを目指している。
- 参考スコア(独自算出の注目度): 1.33134751838052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality real-world data (RWD) is essential for healthcare but must be transformed to comply with the General Data Protection Regulation (GDPR). GDPRs broad definitions of quasi-identifiers (QIDs) and sensitive attributes (SAs) complicate implementation. We aim to standardise RWD anonymisation for GDPR compliance while preserving data utility by introducing an algorithmic method to identify QIDs and SAs and evaluate utility in anonymised datasets. We conducted a systematic literature review via ProQuest and PubMed to inform a three-stage anonymisation pipeline: identification, de-identification, and quasi-identifier dimension evaluation. The pipeline was implemented, validated, and tested on two mock RWD datasets (500 and 1000 rows). Privacy was assessed using k-anonymity, l-diversity, and t-closeness; utility was measured by non-uniform entropy (NUE). The review yielded two studies on QID/SA identification and five on utility metrics. Applying the pipeline, attributes were classified by re-identification risk using alpha and beta thresholds (25 percent/1 percent for 500 rows; 10 percent/1 percent for 1000 rows). Privacy metrics improved k-anonymity from 1 to 4 (500 rows) and 1 to 110 (1000 rows). NUE scores were 69.26 percent and 69.05 percent, respectively, indicating consistent utility despite varying privacy gains. We present a GDPR-compliant anonymisation pipeline for healthcare RWD that provides a reproducible approach to QID/SA identification and utility evaluation; publicly available code promotes standardisation, data privacy, and open science.
- Abstract(参考訳): 高品質の現実世界データ(RWD)は医療に不可欠であるが、GDPR(General Data Protection Regulation)に準拠するために変換されなければならない。
GDPRは準識別器(QID)と機密属性(SA)の幅広い定義が実装を複雑にしている。
我々は、QIDとSAを識別するアルゴリズムを導入し、匿名化されたデータセットでユーティリティを評価することにより、GDPRコンプライアンスのためのRWD匿名化を標準化することを目的としている。
ProQuest と PubMed を用いて系統的な文献レビューを行い,3段階の匿名化パイプライン,同定,同定,準識別器次元の評価を行った。
パイプラインは2つのモックRWDデータセット(500行と1000行)で実装、検証、テストされた。
プライバシーはk-匿名性,l-多様性,t-クロース性を用いて評価され,実用性は非一様エントロピー(NUE)によって測定された。
このレビューでは、QID/SA識別に関する2つの研究と、ユーティリティメトリクスに関する5つの研究が得られた。
パイプラインを適用すると、属性はアルファとベータのしきい値(500行で25%/1%、1000行で10%/1%)を使用して再識別リスクによって分類される。
プライバシーメトリクスはk匿名性を1から4(500行)と1から110(1000行)に改善した。
NUEのスコアはそれぞれ69.26パーセントと69.05パーセントであり、プライバシーの上昇にもかかわらず一貫した実用性を示している。
本稿では、QID/SA識別とユーティリティ評価のための再現可能なアプローチを提供する医療RWDのためのGDPR準拠の匿名化パイプラインを提案する。
関連論文リスト
- Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait [70.00430652562012]
FarSightは、顔認識のためのエンドツーエンドシステムで、顔、歩行、体形を横断する生体計測の手がかりを統合する。
FarSightは、4つのコアモジュールにまたがる新しいアルゴリズムを組み込んでいる。
論文 参考訳(メタデータ) (2025-05-07T17:58:25Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - CFReID: Continual Few-shot Person Re-Identification [130.5656289348812]
Lifelong ReIDは、複数のドメインにまたがる知識を漸進的に学習し、蓄積するために提案されている。
LReIDモデルは、一般にプライバシとコストの懸念のためにアクセスできない、目に見えない各ドメインの大規模ラベル付きデータでトレーニングする必要がある。
本稿では,数ショットデータを用いてモデルをインクリメンタルにトレーニングし,すべてのドメインでテストするContinual Few-shot ReIDを提案する。
論文 参考訳(メタデータ) (2025-03-24T09:17:05Z) - Uncertainty-aware Long-tailed Weights Model the Utility of Pseudo-labels for Semi-supervised Learning [50.868594148443215]
本研究では,不確かさを意識したアンサンブル構造(UES)を提案する。
UESは軽量でアーキテクチャに依存しないため、分類や回帰を含む様々なコンピュータビジョンタスクに容易に拡張できる。
論文 参考訳(メタデータ) (2025-03-13T02:21:04Z) - Is merging worth it? Securely evaluating the information gain for causal dataset acquisition [9.373086204998348]
我々は、マージの価値を定量化するための、最初の暗号的にセキュアな情報理論アプローチを導入する。
我々は、期待情報ゲイン(EIG)を評価し、生データを公開せずに安全に計算できることを保証するために、マルチパーティ計算を利用する。
論文 参考訳(メタデータ) (2024-09-11T12:17:01Z) - Improving CNN-based Person Re-identification using score Normalization [2.462953128215087]
本稿では,CNNに基づく特徴抽出手法とXQDA(Cross-view Quadratic Discriminant Analysis)を組み合わせたPRe-IDを提案する。
提案手法は、VIPeR、GRID、CUHK01、VIPeR、PRID450Sの4つの挑戦的データセットで検証される。
論文 参考訳(メタデータ) (2023-07-01T18:12:27Z) - Practical Privacy-Preserving Gaussian Process Regression via Secret
Sharing [23.80837224347696]
本稿では秘密共有(SS)に基づくプライバシー保護型GPR手法を提案する。
コンフュージョン補正(confusion-correction)というアイデアを通じて,新たなSSベースの指数演算を導出し,Cholesky分解に基づくSSベースの行列逆変換アルゴリズムを構築する。
実験結果から,データプライバシ保護の前提として,提案手法が妥当な精度と効率を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-26T08:17:51Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。