Fugu-MT 論文翻訳(概要): Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing

論文の概要: Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing

arxiv url: http://arxiv.org/abs/2209.06327v5
Date: Wed, 28 Aug 2024 15:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 21:50:55.869883
Title: Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing
Title（参考訳）: Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing
Authors: Yuzhou Jiang, Tianxi Ji, Pan Li, Erman Ayday,
Abstract要約: 本稿では,ゲノムデータセットを共有するための差分プライバシに基づく手法を提案する。提案手法は, GWAS結果の誤り検出における他の手法よりも優れ, 有効性が向上し, メンバーシップ推論攻撃(MIA)に対するプライバシー保護が向上することを示す。この手法を利用することで、ゲノム研究者は、データセットの高品質なバージョンを、相違なくプライベートに共有する傾向にある。
参考スコア（独自算出の注目度）: 8.959228247984337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As genomic research has become increasingly widespread in recent years, few studies have shared datasets due to the privacy concerns about the genomic records. This hinders the reproduction and validation of research outcomes, which are crucial for catching errors, e.g., miscalculations, during the research process. To address the reproducibility issue of genome-wide association studies (GWAS) outcomes, we propose an innovative method that involves a differential privacy-based scheme for sharing genomic datasets. The proposed scheme involves two stages. In the first stage, we generate a noisy copy of the target dataset by applying an optimized version of a previously proposed XOR mechanism on the binarized (encoded) dataset, where the binary noise generation considers biological features. However, the initial step introduces significant noise, making the dataset less suitable for direct GWAS outcome validation. Thus, in the second stage, we implement a post-processing technique that adjusts the Minor Allele Frequency values (MAFs) in the noisy dataset to align more closely with public MAF information using optimal transport, and then decode it back to genomic space. We evaluate the proposed scheme on three real-life genomic datasets and compare it with a baseline approach (local differential privacy) and two synthesis-based solutions with regard to GWAS outcome validation, data utility, and resistance against membership inference attacks (MIAs). We show that our proposed scheme outperforms all other methods in detecting GWAS outcome errors, achieves better utility, and provides higher privacy protection against membership inference attacks (MIAs). By utilizing our method, genomic researchers will be inclined to share a differentially private, yet of high quality version of their datasets.
Abstract（参考訳）: 近年、ゲノム研究が広まってきており、ゲノム記録に関するプライバシー上の懸念からデータセットを共有している研究はほとんどない。これにより、研究プロセス中にエラー、例えば誤計算をキャッチするために不可欠な研究成果の再現と検証が妨げられる。ゲノムワイド・アソシエーション・スタディ(GWAS)の結果の再現性問題に対処するため,ゲノムデータセットを共有するための差分プライバシーに基づくスキームを含む革新的な手法を提案する。提案手法には2つの段階がある。最初の段階では、二項化(符号化)されたデータセットに対して、前述したXOR機構の最適化版を適用し、二項化ノイズ生成が生物学的特徴を考慮することにより、ターゲットデータセットのノイズの多いコピーを生成する。しかし、最初のステップでは大きなノイズが発生し、データセットは直接GWAS結果の検証に適さない。そこで、第2段階では、ノイズデータセット内の最小アレル周波数値(MAF)を調整し、最適な輸送手段を用いて公共MAF情報とより密に一致させ、ゲノム空間に復号するポストプロセッシング手法を実装した。提案手法を3つの実生活ゲノムデータセット上で評価し,GWAS結果の検証,データの有用性,およびMIAに対する耐性に関して,ベースラインアプローチ(ローカル差分プライバシー)と2つの合成ベースソリューションと比較した。提案手法は, GWAS結果の誤り検出における他の手法よりも優れ, 有効性が向上し, メンバーシップ推論攻撃(MIA)に対するプライバシー保護が向上することを示す。この手法を利用することで、ゲノム研究者は、データセットの高品質なバージョンを、相違なくプライベートに共有する傾向にある。

関連論文リスト

Differentially Private Random Feature Model [52.468511541184895]
プライバシを保存するカーネルマシンに対して,差分的にプライベートな特徴モデルを作成する。本手法は,プライバシを保護し,一般化誤差を導出する。
論文参考訳（メタデータ） (2024-12-06T05:31:08Z)
Privacy-hardened and hallucination-resistant synthetic data generation with logic-solvers [0.0]
我々は,論理解法(SATソルバ)であるGenomatorを導入し,元のデータのプライベートかつ現実的な表現を効率的に生成する。本稿では、最も複雑かつプライベートな情報であるゲノムデータについて示す。
論文参考訳（メタデータ） (2024-10-22T05:20:21Z)
Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文参考訳（メタデータ） (2024-10-21T03:48:23Z)
PP-GWAS: Privacy Preserving Multi-Site Genome-wide Association Studies [2.516577526761521]
本稿では,データプライバシを犠牲にすることなく,計算効率とスケーラビリティの観点から,既存の標準を改善するために設計された新しいアルゴリズムPP-GWASを提案する。実世界および合成データを用いた実験により、PP-GWASは最先端のアルゴリズムの2倍の速さで計算できることが示された。我々は、様々なデータセットを用いてその性能を評価し、より効率的でプライベートなゲノム解析を促進する可能性を強調した。
論文参考訳（メタデータ） (2024-10-10T17:07:57Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。 FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文参考訳（メタデータ） (2024-03-10T08:41:22Z)
Differentially Private Data Generation with Missing Data [25.242190235853595]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文参考訳（メタデータ） (2023-10-17T19:41:54Z)
Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文参考訳（メタデータ） (2023-06-19T17:08:32Z)
Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2022-11-07T10:02:55Z)
DP2-Pub: Differentially Private High-Dimensional Data Publication with Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文参考訳（メタデータ） (2022-08-24T17:52:43Z)
Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。両手法の有効性とロバスト性を実証的に示す。我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文参考訳（メタデータ） (2022-05-12T17:03:57Z)
DRFLM: Distributionally Robust Federated Learning with Inter-client Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。上記の2つの課題を同時に解決するための一般的な枠組みを提案する。我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文参考訳（メタデータ） (2022-04-16T08:08:29Z)
Non-stationary Gaussian process discriminant analysis with variable selection for high-dimensional functional data [0.0]
高次元分類と特徴選択は、最近のデータ取得技術の進歩とともに至るところで行われている。これらの構造は、主に変数の選択と分類を別々に行う2段階のアプローチに依存する一般的な手法に、さらなる課題をもたらす。本稿では、これらのステップを統一されたフレームワークで組み合わせた、新しいガウス過程判別分析(GPDA)を提案する。
論文参考訳（メタデータ） (2021-09-29T03:35:49Z)
Iterative Methods for Private Synthetic Data: Unifying Framework and New Methods [18.317488965846636]
クエリリリースのためのプライベート合成データ生成について検討する。目標は、差分プライバシーの対象となるセンシティブデータセットの衛生バージョンを構築することだ。本枠組みでは,2つの新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-14T04:19:35Z)
P3GM: Private High-Dimensional Data Release via Privacy Preserving Phased Generative Model [23.91327154831855]
本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。 P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
論文参考訳（メタデータ） (2020-06-22T09:47:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。