論文の概要: Scalable privacy-preserving cancer type prediction with homomorphic
encryption
- arxiv url: http://arxiv.org/abs/2204.05496v1
- Date: Tue, 12 Apr 2022 03:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 02:54:57.073864
- Title: Scalable privacy-preserving cancer type prediction with homomorphic
encryption
- Title(参考訳): 準同型暗号を用いたスケーラブルなプライバシー保全型癌型予測
- Authors: Esha Sarkar, Eduardo Chielle, Gamze Gursoy, Leo Chen, Mark Gerstein,
Michail Maniatakos
- Abstract要約: 複数種類のがんに対して200万以上の遺伝情報からなる実世界のデータセットを用いたがん検出のプライバシー保護の課題について検討する。
そこで我々は,まず体細胞突然変異のドメイン知識を活用して遺伝的変異を効率よくエンコードする,がん推定のためのプライバシ保護ソリューションを開発した。
本研究では,高次元データを効率的に処理できる高速行列乗算アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.414669681352423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) alleviates the challenges of high-dimensional data
analysis and improves decision making in critical applications like healthcare.
Effective cancer type from high-dimensional genetic mutation data can be useful
for cancer diagnosis and treatment, if the distinguishable patterns between
cancer types are identified. At the same time, analysis of high-dimensional
data is computationally expensive and is often outsourced to cloud services.
Privacy concerns in outsourced ML, especially in the field of genetics,
motivate the use of encrypted computation, like Homomorphic Encryption (HE).
But restrictive overheads of encrypted computation deter its usage. In this
work, we explore the challenges of privacy preserving cancer detection using a
real-world dataset consisting of more than 2 million genetic information for
several cancer types. Since the data is inherently high-dimensional, we explore
smaller ML models for cancer prediction to enable fast inference in the privacy
preserving domain. We develop a solution for privacy preserving cancer
inference which first leverages the domain knowledge on somatic mutations to
efficiently encode genetic mutations and then uses statistical tests for
feature selection. Our logistic regression model, built using our novel
encoding scheme, achieves 0.98 micro-average area under curve with 13% higher
test accuracy than similar studies. We exhaustively test our model's predictive
capabilities by analyzing the genes used by the model. Furthermore, we propose
a fast matrix multiplication algorithm that can efficiently handle
high-dimensional data. Experimental results show that, even with 40,000
features, our proposed matrix multiplication algorithm can speed up concurrent
inference of multiple individuals by approximately 10x and inference of a
single individual by approximately 550x, in comparison to standard matrix
multiplication.
- Abstract(参考訳): 機械学習(ML)は、高次元データ分析の課題を軽減し、ヘルスケアのような重要なアプリケーションにおける意思決定を改善する。
高次元遺伝子変異データからの効果的ながんタイプは、がんタイプ間の識別可能なパターンが特定できれば、がんの診断と治療に有用である。
同時に、高次元データの分析は計算コストが高く、しばしばクラウドサービスにアウトソースされる。
外部ソースのML、特に遺伝学の分野でのプライバシに関する懸念は、ホモモルフィック暗号化(HE)のような暗号化計算の使用を動機付けている。
しかし、暗号化された計算のオーバーヘッドは、その使用を阻害する。
本研究では,複数種類のがんに対して200万以上の遺伝情報からなる実世界のデータセットを用いたがん検出のプライバシー保護の課題について検討する。
データは本質的に高次元であるため、プライバシ保存領域における高速な推論を可能にするため、癌予測のためのより小さなMLモデルを検討する。
まず、遺伝子変異を効率的にエンコードするために体細胞突然変異に関するドメイン知識を活用し、次に特徴選択に統計的テストを使用するプライバシ保存癌推論のソリューションを開発した。
提案手法で構築したロジスティック回帰モデルは, 曲線下の0.98マイクロ平均面積を, 同様の実験よりも13%高い精度で達成する。
モデルが使用する遺伝子を解析することにより、モデルの予測能力を徹底的に検証する。
さらに,高次元データを効率的に処理できる高速行列乗算アルゴリズムを提案する。
実験結果から,提案する行列乗算アルゴリズムは,4万個の特徴を伴っても,複数の個体の同時推定を約10倍,一つの個体の同時推定を約550倍高速化できることがわかった。
関連論文リスト
- Metastatic Breast Cancer Prognostication Through Multimodal Integration
of Dimensionality Reduction Algorithms and Classification Algorithms [0.0]
機械学習(ML)を用いた転移性癌の検出に関する研究
71.14%の最高精度は、PCA、遺伝的アルゴリズム、k-アネレスト近傍アルゴリズムからなるMLパイプラインによって作られた。
論文 参考訳(メタデータ) (2023-09-19T05:12:02Z) - Stacked Autoencoder Based Multi-Omics Data Integration for Cancer
Survival Prediction [3.083561980077652]
重畳オートエンコーダを用いた生存予測ニューラルネットワーク(SAEsurv-net)と呼ばれる,がん生存予測のためのマルチオミクスデータの統合手法を提案する。
SAEsurv-netは、2段階の次元減少戦略で次元の呪いに対処し、重ねられた計算オートエンコーダモデルで多次元の不均一性を扱う。
実験の結果、SAEsurv-netは単一のタイプのデータと他の最先端の手法に基づくモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-07-08T13:53:11Z) - Gene selection from microarray expression data: A Multi-objective PSO
with adaptive K-nearest neighborhood [0.0]
本稿では,遺伝子発現データを用いたヒト癌疾患の分類問題について論じる。
マイクロアレイデータセットを解析し,がん疾患を効果的に分類するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-27T04:22:10Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - StRegA: Unsupervised Anomaly Detection in Brain MRIs using a Compact
Context-encoding Variational Autoencoder [48.2010192865749]
教師なし異常検出(UAD)は、健康な被験者の異常なデータセットからデータ分布を学習し、分布サンプルの抽出に応用することができる。
本研究では,コンテクストエンコーディング(context-encoding)VAE(ceVAE)モデルのコンパクトバージョンと,前処理と後処理のステップを組み合わせて,UADパイプライン(StRegA)を作成することを提案する。
提案したパイプラインは、BraTSデータセットのT2w画像と0.859$pm$0.112の腫瘍を検出しながら、Diceスコアが0.642$pm$0.101に達した。
論文 参考訳(メタデータ) (2022-01-31T14:27:35Z) - EMT-NET: Efficient multitask network for computer-aided diagnosis of
breast cancer [58.720142291102135]
乳腺腫瘍の分類と分別を同時に行うための,効率的で軽量な学習アーキテクチャを提案する。
腫瘍分類ネットワークにセグメンテーションタスクを組み込むことにより,腫瘍領域に着目したバックボーンネットワークで表現を学習する。
腫瘍分類の精度、感度、特異性はそれぞれ88.6%、94.1%、85.3%である。
論文 参考訳(メタデータ) (2022-01-13T05:24:40Z) - ML with HE: Privacy Preserving Machine Learning Inferences for Genome
Studies [0.0]
本研究は, ホモモルフィック暗号を用いたセキュアなマルチラベル腫瘍分類法を提案する。
2つの異なる機械学習アルゴリズム、SVMとXGBoostは、異なる腫瘍タイプの暗号化ゲノムデータを分類するために使用される。
論文 参考訳(メタデータ) (2021-10-21T19:28:02Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Machine Learning Against Cancer: Accurate Diagnosis of Cancer by Machine
Learning Classification of the Whole Genome Sequencing Data [0.0]
我々は,MLAC(Machine Learning Against Cancer)の新たな手法を開発し,完全精度,感度,特異性を実現した。
The Cancer Genome Atlas and Genotype-Tissue Expression project for cancerous and healthy tissues。
論文 参考訳(メタデータ) (2020-09-12T18:51:47Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。