論文の概要: Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing
- arxiv url: http://arxiv.org/abs/2209.06327v5
- Date: Wed, 28 Aug 2024 15:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 21:50:55.869883
- Title: Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing
- Title(参考訳): Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing
- Authors: Yuzhou Jiang, Tianxi Ji, Pan Li, Erman Ayday,
- Abstract要約: 本稿では,ゲノムデータセットを共有するための差分プライバシに基づく手法を提案する。
提案手法は, GWAS結果の誤り検出における他の手法よりも優れ, 有効性が向上し, メンバーシップ推論攻撃(MIA)に対するプライバシー保護が向上することを示す。
この手法を利用することで、ゲノム研究者は、データセットの高品質なバージョンを、相違なくプライベートに共有する傾向にある。
- 参考スコア(独自算出の注目度): 8.959228247984337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As genomic research has become increasingly widespread in recent years, few studies have shared datasets due to the privacy concerns about the genomic records. This hinders the reproduction and validation of research outcomes, which are crucial for catching errors, e.g., miscalculations, during the research process. To address the reproducibility issue of genome-wide association studies (GWAS) outcomes, we propose an innovative method that involves a differential privacy-based scheme for sharing genomic datasets. The proposed scheme involves two stages. In the first stage, we generate a noisy copy of the target dataset by applying an optimized version of a previously proposed XOR mechanism on the binarized (encoded) dataset, where the binary noise generation considers biological features. However, the initial step introduces significant noise, making the dataset less suitable for direct GWAS outcome validation. Thus, in the second stage, we implement a post-processing technique that adjusts the Minor Allele Frequency values (MAFs) in the noisy dataset to align more closely with public MAF information using optimal transport, and then decode it back to genomic space. We evaluate the proposed scheme on three real-life genomic datasets and compare it with a baseline approach (local differential privacy) and two synthesis-based solutions with regard to GWAS outcome validation, data utility, and resistance against membership inference attacks (MIAs). We show that our proposed scheme outperforms all other methods in detecting GWAS outcome errors, achieves better utility, and provides higher privacy protection against membership inference attacks (MIAs). By utilizing our method, genomic researchers will be inclined to share a differentially private, yet of high quality version of their datasets.
- Abstract(参考訳): 近年、ゲノム研究が広まってきており、ゲノム記録に関するプライバシー上の懸念からデータセットを共有している研究はほとんどない。
これにより、研究プロセス中にエラー、例えば誤計算をキャッチするために不可欠な研究成果の再現と検証が妨げられる。
ゲノムワイド・アソシエーション・スタディ(GWAS)の結果の再現性問題に対処するため,ゲノムデータセットを共有するための差分プライバシーに基づくスキームを含む革新的な手法を提案する。
提案手法には2つの段階がある。
最初の段階では、二項化(符号化)されたデータセットに対して、前述したXOR機構の最適化版を適用し、二項化ノイズ生成が生物学的特徴を考慮することにより、ターゲットデータセットのノイズの多いコピーを生成する。
しかし、最初のステップでは大きなノイズが発生し、データセットは直接GWAS結果の検証に適さない。
そこで、第2段階では、ノイズデータセット内の最小アレル周波数値(MAF)を調整し、最適な輸送手段を用いて公共MAF情報とより密に一致させ、ゲノム空間に復号するポストプロセッシング手法を実装した。
提案手法を3つの実生活ゲノムデータセット上で評価し,GWAS結果の検証,データの有用性,およびMIAに対する耐性に関して,ベースラインアプローチ(ローカル差分プライバシー)と2つの合成ベースソリューションと比較した。
提案手法は, GWAS結果の誤り検出における他の手法よりも優れ, 有効性が向上し, メンバーシップ推論攻撃(MIA)に対するプライバシー保護が向上することを示す。
この手法を利用することで、ゲノム研究者は、データセットの高品質なバージョンを、相違なくプライベートに共有する傾向にある。
関連論文リスト
- Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - PP-GWAS: Privacy Preserving Multi-Site Genome-wide Association Studies [2.516577526761521]
本稿では,データプライバシを犠牲にすることなく,計算効率とスケーラビリティの観点から,既存の標準を改善するために設計された新しいアルゴリズムPP-GWASを提案する。
実世界および合成データを用いた実験により、PP-GWASは最先端のアルゴリズムの2倍の速さで計算できることが示された。
我々は、様々なデータセットを用いてその性能を評価し、より効率的でプライベートなゲノム解析を促進する可能性を強調した。
論文 参考訳(メタデータ) (2024-10-10T17:07:57Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Non-stationary Gaussian process discriminant analysis with variable
selection for high-dimensional functional data [0.0]
高次元分類と特徴選択は、最近のデータ取得技術の進歩とともに至るところで行われている。
これらの構造は、主に変数の選択と分類を別々に行う2段階のアプローチに依存する一般的な手法に、さらなる課題をもたらす。
本稿では、これらのステップを統一されたフレームワークで組み合わせた、新しいガウス過程判別分析(GPDA)を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:35:49Z) - Iterative Methods for Private Synthetic Data: Unifying Framework and New
Methods [18.317488965846636]
クエリリリースのためのプライベート合成データ生成について検討する。
目標は、差分プライバシーの対象となるセンシティブデータセットの衛生バージョンを構築することだ。
本枠組みでは,2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-14T04:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。