論文の概要: Private DNA Sequencing: Hiding Information in Discrete Noise
- arxiv url: http://arxiv.org/abs/2101.12124v2
- Date: Mon, 04 Nov 2024 02:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:25:33.918751
- Title: Private DNA Sequencing: Hiding Information in Discrete Noise
- Title(参考訳): プライベートDNAシークエンシング:離散ノイズで情報を隠蔽する
- Authors: Kayvon Mazooji, Roy Dong, Ilan Shomorony,
- Abstract要約: そこで本研究では,DNAサンプルを混合した付加雑音で2変数変数$X$を隠蔽する問題について検討する。
この問題の解に対する上界と下界を特徴付けるが、これは経験的に非常に近いことが示される。
- 参考スコア(独自算出の注目度): 6.647959476396793
- License:
- Abstract: When an individual's DNA is sequenced, sensitive medical information becomes available to the sequencing laboratory. A recently proposed way to hide an individual's genetic information is to mix in DNA samples of other individuals. We assume that the genetic content of these samples is known to the individual but unknown to the sequencing laboratory. Thus, these DNA samples act as "noise" to the sequencing laboratory, but still allow the individual to recover their own DNA samples afterward. Motivated by this idea, we study the problem of hiding a binary random variable $X$ (a genetic marker) with the additive noise provided by mixing DNA samples, using mutual information as a privacy metric. This is equivalent to the problem of finding a worst-case noise distribution for recovering $X$ from the noisy observation among a set of feasible discrete distributions. We characterize upper and lower bounds to the solution of this problem, which are empirically shown to be very close. The lower bound is obtained through a convex relaxation of the original discrete optimization problem, and yields a closed-form expression. The upper bound is computed via a greedy algorithm for selecting the mixing proportions.
- Abstract(参考訳): 個人のDNAが配列化されると、センシティブな医療情報がシークエンシングラボで利用できるようになる。
最近提案された、個人の遺伝情報を隠蔽する方法は、他の個人のDNAサンプルを混ぜ合わせることである。
これらのサンプルの遺伝的含量は、個体には知られているが、シークエンシングラボには知られていないと仮定する。
このように、これらのDNAサンプルは、シークエンシングラボに「ノイズ」として作用するが、その後、個人が自身のDNAサンプルを回収することを可能にする。
そこで本研究では,DNAサンプルを混合することによって得られる付加ノイズを2変数のランダム変数である$X$(遺伝的マーカー)に隠蔽する問題を,プライバシー指標として相互情報を用いて検討する。
これは、一組の離散分布のノイズ観測から$X$を回収する最悪の雑音分布を求める問題と等価である。
我々はこの問題の解に対する上と下の境界を特徴づけ、非常に近いことが実証的に示されている。
下界は、元の離散最適化問題の凸緩和によって得られ、閉形式式が得られる。
アッパーバウンドは、混合比率を選択するためのグリーディアルゴリズムを介して計算される。
関連論文リスト
- Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-22T01:53:56Z) - StyleGenes: Discrete and Efficient Latent Distributions for GANs [149.0290830305808]
GAN(Generative Adversarial Networks)のための離散潜在分布を提案する。
連続的な先行点から潜在ベクトルを描く代わりに、学習可能な潜在点の有限集合からサンプリングする。
私たちは生物の情報のエンコーディングからインスピレーションを得ます。
論文 参考訳(メタデータ) (2023-04-30T23:28:46Z) - How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。
ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文 参考訳(メタデータ) (2022-10-15T04:11:56Z) - Kernel Density Estimation by Genetic Algorithm [0.0]
遺伝的アルゴリズムは、与えられた大きさの複数のサブサンプルを生成し、元のサンプルから置き換える。
フィットネスの点で 支配的なサブサンプルは 次世代に受け継がれる
論文 参考訳(メタデータ) (2022-03-03T06:16:18Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy
Amplification by Shuffling [49.43288037509783]
ランダムシャッフルは、局所的ランダム化データの差分プライバシー保証を増幅する。
私たちの結果は、以前の作業よりも単純で、ほぼ同じ保証で差分プライバシーに拡張された新しいアプローチに基づいています。
論文 参考訳(メタデータ) (2020-12-23T17:07:26Z) - DNA mixture deconvolution using an evolutionary algorithm with multiple
populations, hill-climbing, and guided mutation [0.8029049649310211]
DNAは、法医学遺伝学で分析された犯罪事例をサンプリングし、複数の貢献者からのDNAを頻繁に含む。
1つ以上のコントリビュータが不明な場合には、関心の対象は、これらの未知のプロファイルの分離であり、しばしば非畳み込み(deconvolution)と呼ばれる。
我々は、未知のDNAプロファイルのデコンボリューションを得るために、多集団進化アルゴリズム(MEA)を導入した。
論文 参考訳(メタデータ) (2020-12-01T14:23:55Z) - RDP-GAN: A R\'enyi-Differential Privacy based Generative Adversarial
Network [75.81653258081435]
GAN(Generative Adversarial Network)は,プライバシ保護の高い現実的なサンプルを生成する能力によって,近年注目を集めている。
しかし、医療記録や財務記録などの機密・私的な訓練例にGANを適用すると、個人の機密・私的な情報を漏らしかねない。
本稿では、学習中の損失関数の値にランダムノイズを慎重に付加することにより、GAN内の差分プライバシー(DP)を実現するR'enyi-differentially private-GAN(RDP-GAN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T09:51:02Z) - The Discrete Gaussian for Differential Privacy [23.977143445822897]
微分プライベートシステムを構築するための重要なツールは、機密データセットで評価された関数の出力にガウスノイズを追加することである。
これまでの研究は、一見無害な数値エラーがプライバシーを完全に破壊することを示した。
差分プライバシーの文脈において、離散ガウシアンを導入・分析する。
論文 参考訳(メタデータ) (2020-03-31T18:00:00Z) - Minimax optimal goodness-of-fit testing for densities and multinomials
under a local differential privacy constraint [3.265773263570237]
適合性テストにおける局所的な差分プライバシー制約の影響を考察する。
本稿では,未知密度の滑らか度パラメータに適応し,対数係数まで最小限の最適値を維持するテストを提案する。
論文 参考訳(メタデータ) (2020-02-11T08:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。