論文の概要: Distributed learning optimisation of Cox models can leak patient data:
Risks and solutions
- arxiv url: http://arxiv.org/abs/2204.05856v1
- Date: Tue, 12 Apr 2022 14:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:09:31.293837
- Title: Distributed learning optimisation of Cox models can leak patient data:
Risks and solutions
- Title(参考訳): Coxモデルの分散学習最適化は患者のデータを漏洩させる:リスクと解決策
- Authors: Carsten Brink (1,2) and Christian R{\o}nn Hansen (1,2) and Matthew
Field (3,4) and Gareth Price (5) and David Thwaites (6) and Nis Sarup (1) and
Uffe Bernchou (1,2) and Lois Holloway (3,4,6,7) ((1) Laboratory of Radiation
Physics, Department of Oncology, Odense University Hospital, Odense, Denmark,
(2) Department of Clinical Research, University of Southern Denmark, Odense,
Denmark, (3) South Western Sydney Clinical School, Faculty of Medicine, UNSW,
Sydney, New South Wales, Australia, (4) Ingham Institute for Applied Medical
Research, Liverpool, New South Wales, Australia, (5) The University of
Manchester, Manchester Academic Health Science Centre, The Christie NHS
Foundation Trust, Manchester, UK, (6) Institute of Medical Physics, School of
Physics, University of Sydney, Sydney, New South Wales, Australia, (7)
Liverpool and Macarthur Cancer Therapy Centres, Liverpool, New South Wales,
Australia)
- Abstract要約: 本稿では,Coxサバイバルモデルの最適化が患者のデータ漏洩につながることを実証する。
我々は、これらの問題を安全に回避するCoxモデルを最適化し、検証する方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical data are often highly sensitive, and frequently there are missing
data. Due to the data's sensitive nature, there is an interest in creating
modelling methods where the data are kept in each local centre to preserve
their privacy, but yet the model can be trained on and learn from data across
multiple centres. Such an approach might be distributed machine learning
(federated learning, collaborative learning) in which a model is iteratively
calculated based on aggregated local model information from each centre.
However, even though no specific data are leaving the centre, there is a
potential risk that the exchanged information is sufficient to reconstruct all
or part of the patient data, which would hamper the safety-protecting rationale
idea of distributed learning. This paper demonstrates that the optimisation of
a Cox survival model can lead to patient data leakage. Following this, we
suggest a way to optimise and validate a Cox model that avoids these problems
in a secure way. The feasibility of the suggested method is demonstrated in a
provided Matlab code that also includes methods for handling missing data.
- Abstract(参考訳): 医療データは、しばしば非常に敏感であり、しばしば欠落するデータがある。
データのセンシティブな性質のため、データのプライバシを維持するために各センタにデータを格納するモデリング手法を作成することに関心があるが、モデルは複数のセンタにまたがるデータに基づいてトレーニングし学習することができる。
このようなアプローチは、各センターの集約されたローカルモデル情報に基づいてモデルが反復的に計算される分散機械学習(フェデレーションラーニング、協調学習)かもしれない。
しかし, 特定のデータが中心を離れていなくても, 交換された情報が患者の全または一部を再構築するのに十分である可能性があり, 分散学習の安全性を守る合理的な考え方を阻害する可能性がある。
本稿では,Coxサバイバルモデルの最適化が患者のデータ漏洩につながることを示す。
次に、これらの問題を安全に回避するCoxモデルを最適化し、検証する方法を提案する。
提案手法の有効性は、不足したデータを扱う方法も含む、提供されたMatlabコードで示される。
関連論文リスト
- Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - Data Encoding For Healthcare Data Democratisation and Information
Leakage Prevention [23.673071967945358]
本稿では,非可逆データ符号化がデータの民主化を実現する効果的な解決策となることを論じる。
ランダムなプロジェクションとランダムな量子符号化を利用して、このフレームワークを高密度および長手または時系列データのために実現している。
実験的な評価では、符号化された時系列データに基づいて訓練されたモデルが、情報ボトルネックの原則を効果的に支持していることが強調されている。
論文 参考訳(メタデータ) (2023-05-05T17:50:50Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Decentralized Distributed Learning with Privacy-Preserving Data
Synthesis [9.276097219140073]
医療分野では、患者と臨床データの均一性を生かして、多施設共同研究がより一般化可能な発見をもたらすことがしばしばある。
最近のプライバシー規制は、データの共有を妨げ、その結果、診断と予後をサポートする機械学習ベースのソリューションを考案する。
ローカルノードの機能を統合する分散分散手法を提案し、プライバシを維持しながら複数のデータセットをまたいで一般化可能なモデルを提供する。
論文 参考訳(メタデータ) (2022-06-20T23:49:38Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Decentralized federated learning of deep neural networks on non-iid data [0.6335848702857039]
分散環境でパーソナライズされたディープラーニングモデルを学ぶことの難しさに対処する。
本稿では,PENS(Performance-Based Neighbor Selection)という手法を提案する。
PENSは強力なベースラインに比べて高い精度を達成することができる。
論文 参考訳(メタデータ) (2021-07-18T19:05:44Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Federated Survival Analysis with Discrete-Time Cox Models [0.46331617589391827]
私たちは、フェデレートラーニング(FL)を用いて、異なるセンターに位置する分散データセットから機械学習モデルを構築します。
得られたモデルが、いくつかの悪い設定で重要なパフォーマンス損失を被る可能性があることを示す。
このアプローチを用いて、合成データに基づく標準FL技術と、The Cancer Genome Atlas (TCGA)による実世界のデータセットを用いて生存モデルを訓練する。
論文 参考訳(メタデータ) (2020-06-16T08:53:19Z) - Have you forgotten? A method to assess if machine learning models have
forgotten data [20.9131206112401]
ディープラーニングの時代において、複数のソースからのデータの集約は、データの多様性を保証するための一般的なアプローチである。
本稿では、モデルによってデータが忘れられたかどうかという課題に対処する。
我々は、ターゲットの出力と異なるデータセットで訓練されたモデルの出力を比較する統計的手法を確立する。
論文 参考訳(メタデータ) (2020-04-21T16:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。