論文の概要: Fidelity and Privacy of Synthetic Medical Data
- arxiv url: http://arxiv.org/abs/2101.08658v1
- Date: Mon, 18 Jan 2021 23:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 06:37:46.046353
- Title: Fidelity and Privacy of Synthetic Medical Data
- Title(参考訳): 合成医療データの忠実性とプライバシー
- Authors: Ofer Mendelevitch, Michael D. Lesh
- Abstract要約: 医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digitization of medical records ushered in a new era of big data to
clinical science, and with it the possibility that data could be shared, to
multiply insights beyond what investigators could abstract from paper records.
The need to share individual-level medical data to accelerate innovation in
precision medicine continues to grow, and has never been more urgent, as
scientists grapple with the COVID-19 pandemic. However, enthusiasm for the use
of big data has been tempered by a fully appropriate concern for patient
autonomy and privacy. That is, the ability to extract private or confidential
information about an individual, in practice, renders it difficult to share
data, since significant infrastructure and data governance must be established
before data can be shared. Although HIPAA provided de-identification as an
approved mechanism for data sharing, linkage attacks were identified as a major
vulnerability. A variety of mechanisms have been established to avoid leaking
private information, such as field suppression or abstraction, strictly
limiting the amount of information that can be shared, or employing
mathematical techniques such as differential privacy. Another approach, which
we focus on here, is creating synthetic data that mimics the underlying data.
For synthetic data to be a useful mechanism in support of medical innovation
and a proxy for real-world evidence, one must demonstrate two properties of the
synthetic dataset: (1) any analysis on the real data must be matched by
analysis of the synthetic data (statistical fidelity) and (2) the synthetic
data must preserve privacy, with minimal risk of re-identification (privacy
guarantee). In this paper we propose a framework for quantifying the
statistical fidelity and privacy preservation properties of synthetic datasets
and demonstrate these metrics for synthetic data generated by Syntegra
technology.
- Abstract(参考訳): 医療記録のデジタル化は、新しい時代のビッグデータを臨床科学に継承し、データを共有できる可能性とともに、研究者が論文記録から抽象化できるものを超えて洞察を積み重ねた。
精度医療の革新を促進するために、個々のレベルの医療データを共有する必要性は拡大し続けており、科学者が新型コロナウイルス(COVID-19)のパンデミックに苦しむ中で、より緊急なものになったことはない。
しかし、ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
つまり、個人に関するプライベートまたはシークレットな情報を抽出する能力は、データを共有する前に重要なインフラストラクチャとデータガバナンスを確立する必要があるため、データの共有を難しくする。
HIPAAは、データ共有の承認メカニズムとして非識別を提供したが、リンク攻撃は大きな脆弱性として特定された。
フィールド抑圧や抽象化といった個人情報の漏洩を避けるために、共有できる情報の量を制限する、微分プライバシーのような数学的手法を用いるといった様々なメカニズムが確立されている。
もうひとつのアプローチは、基礎となるデータを模倣する合成データを作ることです。
合成データは, 医療革新を支えるための有用なメカニズムであり, 実世界の証拠のプロキシであるためには, 合成データセットの2つの特性を示す必要がある。(1) 実データに関する分析は, 合成データの分析(統計的忠実性)と(2) 合成データは, 最小限の再識別(プライバシ保証)のリスクを伴って, プライバシーを保たなければならない。
本稿では,合成データセットの統計忠実性とプライバシ保存特性を定量化する枠組みを提案し,syntegra技術によって生成された合成データの指標を示す。
関連論文リスト
- Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data
Generation and Evaluation in Learning Analytics [0.412484724941528]
プライバシーは学習分析(LA)の進歩に大きな障害となり、匿名化の不十分さやデータ誤用といった課題を提示している。
合成データは潜在的な対策として現れ、堅牢なプライバシー保護を提供する。
LAの合成データに関する以前の研究では、プライバシーとデータユーティリティの微妙なバランスを評価するのに不可欠な、徹底的な評価が欠如していた。
論文 参考訳(メタデータ) (2024-01-12T20:27:55Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - The Use of Synthetic Data to Train AI Models: Opportunities and Risks
for Sustainable Development [0.6906005491572401]
本稿では,合成データの生成,利用,普及を規定する政策について検討する。
優れた合成データポリシーは、プライバシの懸念とデータの有用性のバランスを取らなければならない。
論文 参考訳(メタデータ) (2023-08-31T23:18:53Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data: Methods, Use Cases, and Risks [11.413309528464632]
研究コミュニティと業界の両方で勢いを増す可能性のある選択肢は、代わりに合成データを共有することだ。
我々は、合成データについて穏やかに紹介し、そのユースケース、未適応のプライバシー問題、そしてその固有の制限を効果的なプライバシー強化技術として論じます。
論文 参考訳(メタデータ) (2023-03-01T16:35:33Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z) - Really Useful Synthetic Data -- A Framework to Evaluate the Quality of
Differentially Private Synthetic Data [2.538209532048867]
プライバシ保護の原則を付加する合成データ生成の最近の進歩は、プライバシ保護の方法で統計情報を共有するための重要なステップである。
データプライバシとデータ品質のトレードオフを最適化するためには、後者について詳しく考える必要があります。
本研究では,応用研究者の視点から,差分的にプライベートな合成データの質を評価する枠組みを開発する。
論文 参考訳(メタデータ) (2020-04-16T16:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。