論文の概要: Protecting Privacy and Transforming COVID-19 Case Surveillance Datasets
for Public Use
- arxiv url: http://arxiv.org/abs/2101.05093v1
- Date: Wed, 13 Jan 2021 14:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-15 17:42:40.446069
- Title: Protecting Privacy and Transforming COVID-19 Case Surveillance Datasets
for Public Use
- Title(参考訳): プライバシ保護と新型コロナウイルスのケース監視データセットの変革
- Authors: Brian Lee, Brandi Dupervil, Nicholas P. Deputy, Wil Duck, Stephen
Soroka, Lyndsay Bottichio, Benjamin Silk, Jason Price, Patricia Sweeney,
Jennifer Fuld, Todd Weber, Dan Pollock
- Abstract要約: CDCは、個人レベルの未確認データを管轄区域から収集し、現在800万件以上の記録を保有している。
データ要素は、有用性、公開要求、およびプライバシーの影響に基づいて含まれた。
機密情報の再識別や暴露のリスクを低減するため、特定のフィールド値が抑制された。
- 参考スコア(独自算出の注目度): 0.4462475518267084
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Objectives: Federal open data initiatives that promote increased sharing of
federally collected data are important for transparency, data quality, trust,
and relationships with the public and state, tribal, local, and territorial
(STLT) partners. These initiatives advance understanding of health conditions
and diseases by providing data to more researchers, scientists, and
policymakers for analysis, collaboration, and valuable use outside CDC
responders. This is particularly true for emerging conditions such as COVID-19
where we have much to learn and have evolving data needs. Since the beginning
of the outbreak, CDC has collected person-level, de-identified data from
jurisdictions and currently has over 8 million records, increasing each day.
This paper describes how CDC designed and produces two de-identified public
datasets from these collected data.
Materials and Methods: Data elements were included based on the usefulness,
public request, and privacy implications; specific field values were suppressed
to reduce risk of reidentification and exposure of confidential information.
Datasets were created and verified for privacy and confidentiality using data
management platform analytic tools as well as R scripts.
Results: Unrestricted data are available to the public through Data.CDC.gov
and restricted data, with additional fields, are available with a data use
agreement through a private repository on GitHub.com.
Practice Implications: Enriched understanding of the available public data,
the methods used to create these data, and the algorithms used to protect
privacy of de-identified individuals allow for improved data use. Automating
data generation procedures allows greater and more timely sharing of data.
- Abstract(参考訳): 目的:連邦政府が収集したデータの共有を促進する連邦オープンデータイニシアチブは、透明性、データ品質、信頼、および公的および州、部族、地域および地域(stlt)パートナーとの関係において重要である。
これらのイニシアチブは、CDCの対応者以外の研究者、科学者、政策立案者にデータを提供することで、健康状態や病気の理解を深める。
これは、私たちが学習し、データニーズを進化させている新型コロナウイルスのような新興の状況に特に当てはまる。
感染拡大の当初から、cdcは個人レベルの身元不明のデータを管轄区域から収集しており、現在800万件以上の記録があり、毎日増加している。
本稿では,cdcが収集したデータから2つの識別されていない公開データセットを設計・作成する方法について述べる。
資料と方法:データ要素は、有用性、公開要求、プライバシーの影響に基づいて含まれ、特定のフィールド値が抑制され、機密情報の再識別や暴露のリスクが軽減された。
データ管理プラットフォーム分析ツールとRスクリプトを使用して、プライバシと機密性のためにデータセットが作成、検証された。
結果: 制限のないデータはdata.cdc.govを通じて公開され、制限されたデータは追加フィールドとともにgithub.comのプライベートリポジトリを通じてデータ使用契約で利用可能である。
プラクティスの意味: 利用可能な公開データの理解を深め、これらのデータを作成するのに使用される方法、および身元不明の個人のプライバシーを保護するために使用されるアルゴリズムにより、データ使用が改善される。
データ生成手順の自動化により、データのよりタイムリーな共有が可能になる。
関連論文リスト
- DP-CDA: An Algorithm for Enhanced Privacy Preservation in Dataset Synthesis Through Randomized Mixing [0.8739101659113155]
有効なデータパブリッシングアルゴリズムであるemphDP-CDAを導入する。
提案アルゴリズムは、クラス固有の方法でデータをランダムに混合し、プライバシー保証を確保するために慎重に調整されたランダム性を誘導することにより、合成データセットを生成する。
以上の結果から,DP-CDAを用いた合成データセットは,同一のプライバシー要件下であっても,従来のデータパブリッシングアルゴリズムで生成したデータセットよりも優れた実用性が得られることが示唆された。
論文 参考訳(メタデータ) (2024-11-25T06:14:06Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Privacy-Preserving Data Sharing in Agriculture: Enforcing Policy Rules
for Secure and Confidential Data Synthesis [0.0]
農業におけるビッグデータの利用には、センサー、衛星、農夫の調査など、さまざまな情報源のデータ収集と分析が必要である。
このデータのセキュリティと参加者のプライバシに関して、大きな懸念がある。
プライバシー保護データ共有のために、ディープラーニングに基づく合成データ生成が提案されている。
本稿ではプライバシ保護データ生成アルゴリズムにおけるプライバシポリシルールの強化のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-27T00:12:47Z) - Preserving The Safety And Confidentiality Of Data Mining Information In Health Care: A literature review [0.0]
PPDM技術は、膨大な量のデータから実行可能な洞察を抽出することを可能にする。
機密情報の開示は患者のプライバシーを侵害する。
本稿では,プライバシ保護機構,データ保護規制,緩和戦略に関する関連研究のレビューを行う。
論文 参考訳(メタデータ) (2023-10-30T05:32:15Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - More Data Types More Problems: A Temporal Analysis of Complexity,
Stability, and Sensitivity in Privacy Policies [0.0]
データブローカーとデータプロセッサは、消費者データを収集し、購入し、販売することで利益を得る、数十億ドル規模の産業の一部である。
しかし、データ収集業界には、どのような種類のデータが収集、使用、販売されているかを理解するのが難しくなる透明性がほとんどありません。
論文 参考訳(メタデータ) (2023-02-17T15:21:24Z) - Certified Data Removal in Sum-Product Networks [78.27542864367821]
収集したデータの削除は、データのプライバシを保証するのに不十分であることが多い。
UnlearnSPNは、訓練された総生産ネットワークから単一データポイントの影響を取り除くアルゴリズムである。
論文 参考訳(メタデータ) (2022-10-04T08:22:37Z) - Releasing survey microdata with exact cluster locations and additional
privacy safeguards [77.34726150561087]
本稿では,プライバシ保護を付加した独自のマイクロデータの有用性を活用した,代替的なマイクロデータ配信戦略を提案する。
当社の戦略は, 再識別の試みにおいても, 任意の属性に対する再識別リスクを60~80%削減する。
論文 参考訳(メタデータ) (2022-05-24T19:37:11Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - Second layer data governance for permissioned blockchains: the privacy
management challenge [58.720142291102135]
新型コロナウイルス(COVID-19)やエボラウイルス(エボラ出血熱)のようなパンデミックの状況では、医療データを共有することに関連する行動は、大規模な感染を避け、死亡者を減らすために重要である。
この意味において、許可されたブロックチェーン技術は、スマートコントラクトが管理する不変で統一された分散データベースを通じて、データのオーナシップ、透明性、セキュリティを提供する権利をユーザに与えるために登場します。
論文 参考訳(メタデータ) (2020-10-22T13:19:38Z) - Utility-aware Privacy-preserving Data Releasing [7.462336024223669]
本稿では2段階の摂動に基づくプライバシー保護データ公開フレームワークを提案する。
まず、特定の事前定義されたプライバシとユーティリティの問題がパブリックドメインデータから学習される。
そして、学習した知識を活用して、データ所有者のデータを民営化したデータに正確に摂動させます。
論文 参考訳(メタデータ) (2020-05-09T05:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。