論文の概要: PROVGEN: A Privacy-Preserving Approach for Outcome Validation in Genomic Research
- arxiv url: http://arxiv.org/abs/2209.06327v6
- Date: Wed, 05 Mar 2025 04:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:48:28.181501
- Title: PROVGEN: A Privacy-Preserving Approach for Outcome Validation in Genomic Research
- Title(参考訳): PROVGEN:ゲノム研究における成果検証のためのプライバシ保護アプローチ
- Authors: Yuzhou Jiang, Tianxi Ji, Pan Li, Erman Ayday,
- Abstract要約: 本稿では,ゲノムデータセット共有のためのプライバシ保護手法であるPROVGENを紹介する。
我々のアプローチはゲノムデータをバイナリ空間にエンコードし、2段階のプロセスを適用する。
提案手法は, GWAS結果の誤り検出において, 既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 8.959228247984337
- License:
- Abstract: As genomic research has become increasingly popular in recent years, the sharing of datasets has remained limited due to privacy concerns. This limitation hinders the reproduction and validation of research outcomes, which are essential for identifying computation errors during the research process. In this paper, we introduce PROVGEN, a privacy-preserving method for sharing genomic datasets that facilitates reproducibility and outcome validation in genome-wide association studies (GWAS). Our approach encodes genomic data into binary space and applies a two-stage process. First, we generate a differentially private version of the dataset using an XOR-based mechanism that incorporates biological characteristics. Second, we restore data utility by adjusting the Minor Allele Frequency (MAF) values in the noisy dataset to align with published MAFs using optimal transport. Finally, we decode the processed data back into its genomic form for further use. We evaluate PROVGEN on three real-world genomic datasets and compare it with local differential privacy and three synthesis-based methods. We show that our proposed scheme outperforms all existing methods in detecting GWAS outcome errors, achieves better utility, provides higher privacy protection against membership inference attacks (MIAs). By adopting our method, genomic researchers will be inclined to share differentially private datasets while maintaining high data quality.
- Abstract(参考訳): 近年、ゲノム研究の人気が高まっているため、プライバシー上の懸念からデータセットの共有は制限され続けている。
この制限は、研究プロセス中の計算エラーを特定するために不可欠である研究成果の再現と検証を妨げる。
本稿では,ゲノムワイド・アソシエーション研究(GWAS)における再現性と結果検証を容易にするゲノムデータセット共有のためのプライバシ保護手法であるPROVGENを紹介する。
我々のアプローチはゲノムデータをバイナリ空間にエンコードし、2段階のプロセスを適用する。
まず、生物学的特徴を組み込んだXOR機構を用いて、データセットの微分プライベートバージョンを生成する。
第2に,ノイズデータセットのMAF(Minor Allele Frequency)値を調整してデータユーティリティを復元し,最適な輸送手段を用いて公開MAFと整合する。
最後に、処理したデータをゲノム形式に復号し、さらなる利用を試みる。
実世界の3つのゲノムデータセット上でPROVGENを評価し,それを局所的な差分プライバシーと3つの合成法と比較した。
提案手法は, GWAS結果の誤り検出において, 既存の手法よりも優れ, 有効性が向上し, メンバーシップ推論攻撃(MIA)に対するプライバシー保護が向上することを示す。
我々の手法を採用することで、ゲノム研究者は、高いデータ品質を維持しながら、差分プライベートなデータセットを共有する傾向にある。
関連論文リスト
- Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - PP-GWAS: Privacy Preserving Multi-Site Genome-wide Association Studies [2.516577526761521]
本稿では,データプライバシを犠牲にすることなく,計算効率とスケーラビリティの観点から,既存の標準を改善するために設計された新しいアルゴリズムPP-GWASを提案する。
実世界および合成データを用いた実験により、PP-GWASは最先端のアルゴリズムの2倍の速さで計算できることが示された。
我々は、様々なデータセットを用いてその性能を評価し、より効率的でプライベートなゲノム解析を促進する可能性を強調した。
論文 参考訳(メタデータ) (2024-10-10T17:07:57Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Non-stationary Gaussian process discriminant analysis with variable
selection for high-dimensional functional data [0.0]
高次元分類と特徴選択は、最近のデータ取得技術の進歩とともに至るところで行われている。
これらの構造は、主に変数の選択と分類を別々に行う2段階のアプローチに依存する一般的な手法に、さらなる課題をもたらす。
本稿では、これらのステップを統一されたフレームワークで組み合わせた、新しいガウス過程判別分析(GPDA)を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:35:49Z) - Iterative Methods for Private Synthetic Data: Unifying Framework and New
Methods [18.317488965846636]
クエリリリースのためのプライベート合成データ生成について検討する。
目標は、差分プライバシーの対象となるセンシティブデータセットの衛生バージョンを構築することだ。
本枠組みでは,2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-14T04:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。