論文の概要: Measuring Utility and Privacy of Synthetic Genomic Data
- arxiv url: http://arxiv.org/abs/2102.03314v1
- Date: Fri, 5 Feb 2021 17:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 12:57:16.303067
- Title: Measuring Utility and Privacy of Synthetic Genomic Data
- Title(参考訳): 合成ゲノムデータの有用性とプライバシーの測定
- Authors: Bristena Oprisanu and Georgi Ganev and Emiliano De Cristofaro
- Abstract要約: 人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
- 参考スコア(独自算出の注目度): 3.635321290763711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Genomic data provides researchers with an invaluable source of information to
advance progress in biomedical research, personalized medicine, and drug
development. At the same time, however, this data is extremely sensitive, which
makes data sharing, and consequently availability, problematic if not outright
impossible. As a result, organizations have begun to experiment with sharing
synthetic data, which should mirror the real data's salient characteristics,
without exposing it. In this paper, we provide the first evaluation of the
utility and the privacy protection of five state-of-the-art models for
generating synthetic genomic data.
First, we assess the performance of the synthetic data on a number of common
tasks, such as allele and population statistics as well as linkage
disequilibrium and principal component analysis. Then, we study the
susceptibility of the data to membership inference attacks, i.e., inferring
whether a target record was part of the data used to train the model producing
the synthetic dataset. Overall, there is no single approach for generating
synthetic genomic data that performs well across the board. We show how the
size and the nature of the training dataset matter, especially in the case of
generative models. While some combinations of datasets and models produce
synthetic data with distributions close to the real data, there often are
target data points that are vulnerable to membership inference. Our measurement
framework can be used by practitioners to assess the risks of deploying
synthetic genomic data in the wild, and will serve as a benchmark tool for
researchers and practitioners in the future.
- Abstract(参考訳): ゲノムデータは、生物医学研究、パーソナライズされた医学、薬物開発の発展を進めるために、研究者に貴重な情報を提供する。
しかし、同時に、このデータは極めて敏感であり、データ共有を可能とし、その結果、問題が発生します。
その結果、組織は生データを公開せずに、実際のデータの健全な特性を反映した合成データを共有する実験を始めている。
本稿では,合成ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護に関する最初の評価を行う。
まず,アレルや人口統計,連鎖不均衡,主成分分析など,多くの共通課題における合成データの性能を評価する。
そこで, 本研究では, 対象レコードが合成データセットのモデル作成に用いたデータの一部であるか否かを推測し, 会員推論攻撃に対するデータの感受性を検討する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチはありません。
我々は、特に生成モデルの場合、トレーニングデータセットのサイズと性質がいかに重要であるかを示す。
データセットとモデルの組み合わせは、実際のデータに近い分布を持つ合成データを生成するが、しばしばメンバーシップ推論に弱いターゲットデータポイントが存在する。
我々の測定フレームワークは、野生に合成ゲノムデータを展開するリスクを評価するために、研究者や実践者にとって、将来的なベンチマークツールとなるでしょう。
関連論文リスト
- Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。
Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。
提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文 参考訳(メタデータ) (2023-12-09T02:04:25Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Synthetic Data in Human Analysis: A Survey [16.562921709882865]
調査は、人間分析の分野の研究者や実践者を対象としている。
我々は,現在最先端の手法と合成データの利用の主な利点を要約した調査を行う。
また、利用可能な合成データセットと生成モデルの概要も提供する。
論文 参考訳(メタデータ) (2022-08-19T07:32:34Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。