論文の概要: Sensitive Data Detection with High-Throughput Machine Learning Models in
Electrical Health Records
- arxiv url: http://arxiv.org/abs/2305.03169v2
- Date: Mon, 22 May 2023 00:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 02:51:08.441925
- Title: Sensitive Data Detection with High-Throughput Machine Learning Models in
Electrical Health Records
- Title(参考訳): 電気健康記録における高スループット機械学習モデルによるセンシティブデータ検出
- Authors: Kai Zhang and Xiaoqian Jiang
- Abstract要約: 1996年健康保険ポータビリティ・アンド・アカウンタビリティ法(英: Health Insurance Portability and Accountability Act of 1996, HIPAA)は、厚生労働情報保護法(PHI)である。
この領域における課題の1つは、異なる分野にわたるデータにおけるPHIフィールドの不均一性である。
この可変性は、あるデータベースで動作しているルールベースの機密変数識別システムを別のデータベースでフェールさせる。
- 参考スコア(独自算出の注目度): 15.982220037507169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of big data, there is an increasing need for healthcare providers,
communities, and researchers to share data and collaborate to improve health
outcomes, generate valuable insights, and advance research. The Health
Insurance Portability and Accountability Act of 1996 (HIPAA) is a federal law
designed to protect sensitive health information by defining regulations for
protected health information (PHI). However, it does not provide efficient
tools for detecting or removing PHI before data sharing. One of the challenges
in this area of research is the heterogeneous nature of PHI fields in data
across different parties. This variability makes rule-based sensitive variable
identification systems that work on one database fail on another. To address
this issue, our paper explores the use of machine learning algorithms to
identify sensitive variables in structured data, thus facilitating the
de-identification process. We made a key observation that the distributions of
metadata of PHI fields and non-PHI fields are very different. Based on this
novel finding, we engineered over 30 features from the metadata of the original
features and used machine learning to build classification models to
automatically identify PHI fields in structured Electronic Health Record (EHR)
data. We trained the model on a variety of large EHR databases from different
data sources and found that our algorithm achieves 99% accuracy when detecting
PHI-related fields for unseen datasets. The implications of our study are
significant and can benefit industries that handle sensitive data.
- Abstract(参考訳): ビッグデータの時代では、医療提供者、コミュニティ、研究者がデータを共有し、健康結果を改善し、貴重な洞察を生み出し、研究を進める必要性が高まっています。
健康保険ポータビリティおよび説明責任法(health insurance portability and accountability act of 1996、hipaa)は、機密情報を保護するために制定された連邦法である。
しかし、データ共有の前にphiを検出したり削除したりする効率的なツールは提供していない。
この領域における課題の1つは、異なる分野にわたるデータにおけるPHIフィールドの不均一性である。
この可変性により、あるデータベースで動作しているルールベースの敏感な変数識別システムが他のデータベースで失敗する。
本稿では,構造化データのセンシティブな変数を識別するための機械学習アルゴリズムの利用について検討する。
我々は,PHIフィールドと非PHIフィールドのメタデータの分布が極めて異なることを重要視した。
この新たな発見に基づいて,本研究は,オリジナル特徴のメタデータから30以上の特徴を探索し,構造化電子健康記録(ehr)データ中のphiフィールドを自動的に識別する分類モデルの構築に機械学習を用いた。
我々は,異なるデータソースから多種多様な大規模EMHデータベース上でモデルを訓練し,未知のデータセットに対するPHI関連フィールドを検出する際に,アルゴリズムが99%の精度を達成することを確認した。
我々の研究の意義は重要であり、機密データを扱う産業に利益をもたらす可能性がある。
関連論文リスト
- Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks [7.928574214440075]
本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。
バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-23T04:20:14Z) - An advanced data fabric architecture leveraging homomorphic encryption
and federated learning [10.779491433438144]
本稿では,分散データファブリックアーキテクチャにおけるフェデレーション学習と部分同型暗号を用いた医用画像解析のためのセキュアなアプローチを提案する。
本研究は下垂体腫瘍分類のケーススタディを通じて, 本手法の有効性を実証し, 高い精度を達成した。
論文 参考訳(メタデータ) (2024-02-15T08:50:36Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Diversity-enhancing Generative Network for Few-shot Hypothesis
Adaptation [135.80439360370556]
本稿では,FHA問題に対する多様性向上型生成ネットワーク(DEG-Net)を提案する。
カーネル独立対策(Hilbert-Schmidt independent criterion、HSIC)の助けを借りて、さまざまなラベルのないデータを生成することができる。
論文 参考訳(メタデータ) (2023-07-12T06:29:02Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - When Accuracy Meets Privacy: Two-Stage Federated Transfer Learning
Framework in Classification of Medical Images on Limited Data: A COVID-19
Case Study [77.34726150561087]
新型コロナウイルスのパンデミックが急速に広がり、世界の医療資源が不足している。
CNNは医療画像の解析に広く利用され、検証されている。
論文 参考訳(メタデータ) (2022-03-24T02:09:41Z) - Benchmarking Modern Named Entity Recognition Techniques for Free-text
Health Record De-identification [6.026640792312181]
連邦法は、保護された健康情報(PHI)を含むEHRデータの共有を制限する。
本研究は, 深層学習に基づく名前付きエンティティ認識(NER)手法を探索し, 識別タスクにおいてどのメソッドがより優れているかを判定する。
i2b2トレーニングデータセットでモデルをトレーニング,テストし,地域病院から収集したEHRデータを用いて,そのパフォーマンスを質的に評価した。
論文 参考訳(メタデータ) (2021-03-25T01:26:58Z) - Handling Non-ignorably Missing Features in Electronic Health Records
Data Using Importance-Weighted Autoencoders [8.518166245293703]
本稿では,生体データのランダムなパターンではなく,欠落を柔軟に扱うために,重要度重み付きオートエンコーダ(iwaes)と呼ばれるvaesの新たな拡張を提案する。
提案手法は,組み込みニューラルネットワークを用いて欠落機構をモデル化し,欠落機構の正確な形式を事前に指定する必要をなくした。
論文 参考訳(メタデータ) (2021-01-18T22:53:29Z) - Uncovering the structure of clinical EEG signals with self-supervised
learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。
この現象は脳波(EEG)などの臨床関連データに特に問題となる。
ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文 参考訳(メタデータ) (2020-07-31T14:34:47Z) - GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially
Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。
GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。
このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2020-06-15T10:01:01Z) - Generation of Differentially Private Heterogeneous Electronic Health
Records [9.926231893220061]
本稿では, 合成異種EHRの生成にジェネレーティブ・アドバーサリアル・ネットワークを用いて検討する。
本稿では,DP 合成 EHR データセットを作成するために,差分プライバシ(DP)保存最適化の適用について検討する。
論文 参考訳(メタデータ) (2020-06-05T13:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。