論文の概要: Deep generative models in DataSHIELD
- arxiv url: http://arxiv.org/abs/2003.07775v1
- Date: Wed, 11 Mar 2020 10:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:22:28.553864
- Title: Deep generative models in DataSHIELD
- Title(参考訳): DataSHIELDにおける深部生成モデル
- Authors: Stefan Lenz, Harald Binder
- Abstract要約: 例えば、ドイツでは、患者の同意なしに研究目的で異なる病院からの定期的なデータをプールすることは不可能である。
DataSHIELDソフトウェアは、分散データの共同分析のためのインフラストラクチャと統計手法のセットを提供する。
我々は,分散患者データから複雑なパターンを保存する人工データを作成するために,DataSHIELD上に構築されたソフトウェア実装とともに方法論を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The best way to calculate statistics from medical data is to use the data of
individual patients. In some settings, this data is difficult to obtain due to
privacy restrictions. In Germany, for example, it is not possible to pool
routine data from different hospitals for research purposes without the consent
of the patients. The DataSHIELD software provides an infrastructure and a set
of statistical methods for joint analyses of distributed data. The contained
algorithms are reformulated to work with aggregated data from the participating
sites instead of the individual data. If a desired algorithm is not implemented
in DataSHIELD or cannot be reformulated in such a way, using artificial data is
an alternative. We present a methodology together with a software
implementation that builds on DataSHIELD to create artificial data that
preserve complex patterns from distributed individual patient data. Such data
sets of artificial patients, which are not linked to real patients, can then be
used for joint analyses. We use deep Boltzmann machines (DBMs) as generative
models for capturing the distribution of data. For the implementation, we
employ the package "BoltzmannMachines" from the Julia programming language and
wrap it for use with DataSHIELD, which is based on R. As an exemplary
application, we conduct a distributed analysis with DBMs on a synthetic data
set, which simulates genetic variant data. Patterns from the original data can
be recovered in the artificial data using hierarchical clustering of the
virtual patients, demonstrating the feasibility of the approach. Our
implementation adds to DataSHIELD the ability to generate artificial data that
can be used for various analyses, e. g. for pattern recognition with deep
learning. This also demonstrates more generally how DataSHIELD can be flexibly
extended with advanced algorithms from languages other than R.
- Abstract(参考訳): 医療データから統計を計算する最良の方法は、個々の患者のデータを使用することである。
一部の設定では、プライバシー制限のため、このデータは取得が難しい。
例えば、ドイツでは、患者の同意なしに研究目的で異なる病院からの定期的なデータをプールすることは不可能である。
DataSHIELDソフトウェアは、分散データの共同分析のためのインフラストラクチャと統計手法のセットを提供する。
含まれているアルゴリズムは、個々のデータではなく、参加者のサイトから集約されたデータを扱うように再構成される。
所望のアルゴリズムがDataSHIELDに実装されていない場合や、そのような方法で再構成できない場合、人工データを使用することが代替となる。
我々は,分散患者データから複雑なパターンを保存する人工データを作成するために,DataSHIELD上に構築されたソフトウェア実装とともに方法論を提案する。
このような人工患者のデータセットは、実際の患者とはリンクしないが、共同分析に使用できる。
我々は、データの分布を捉えるための生成モデルとしてディープボルツマンマシン(DBM)を用いる。
この実装では、juliaプログラミング言語のパッケージ"boltzmannmachines"を採用し、rをベースにしたdatashieldでラップし、例えば、遺伝的変異データをシミュレートする合成データセット上でdbmsを用いた分散分析を行う。
仮想患者の階層的クラスタリングを用いて、元のデータからのパターンを人工データに復元し、アプローチの実現可能性を示す。
我々の実装は、DataSHIELDに追加され、様々な分析に使用できる人工データを生成することができる。
g.
深層学習によるパターン認識に役立ちます
これはさらに一般的に、R以外の言語からの高度なアルゴリズムで、DataSHIELDを柔軟に拡張する方法を示している。
関連論文リスト
- How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Medical data wrangling with sequential variational autoencoders [5.9207487081080705]
本稿では,逐次変分オートエンコーダ(vaes)を用いた異種データ型とバースト欠落データを用いた医療データ記録のモデル化を提案する。
GP-VAEモデルより計算複雑性が低く,両指標を用いた場合,Shi-VAEが最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-03-12T10:59:26Z) - Copula Flows for Synthetic Data Generation [0.5801044612920815]
確率モデルを合成データ生成器として用いることを提案する。
密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
論文 参考訳(メタデータ) (2021-01-03T10:06:23Z) - DeepRite: Deep Recurrent Inverse TreatmEnt Weighting for Adjusting
Time-varying Confounding in Modern Longitudinal Observational Data [68.29870617697532]
時系列データにおける時間変化の相違に対するDeep Recurrent Inverse TreatmEnt重み付け(DeepRite)を提案する。
DeepRiteは、合成データから基底的真理を復元し、実際のデータから偏りのない処理効果を推定する。
論文 参考訳(メタデータ) (2020-10-28T15:05:08Z) - VAEs in the Presence of Missing Data [6.397263087026567]
我々は、欠落したデータを生成する汚職過程の新しい潜伏変数モデルを開発し、対応する抽出可能なエビデンスローバウンド(ELBO)を導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元入力にスケールし、データ要素が欠落しているか否かの指標変数にVAEエンコーダとデコーダの両方にアクセスできる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。
論文 参考訳(メタデータ) (2020-06-09T14:40:00Z) - Unsupervised Pre-trained Models from Healthy ADLs Improve Parkinson's
Disease Classification of Gait Patterns [3.5939555573102857]
パーキンソン病分類のための加速度計歩行データに関連する特徴を抽出する方法を示す。
我々の事前学習したソースモデルは畳み込みオートエンコーダで構成されており、ターゲット分類モデルは単純な多層パーセプトロンモデルである。
本研究は,Parkinson病分類の課題に対する事前学習モデルの選択が与える影響を,異なる活動群を用いて訓練した2つの異なるソースモデルについて検討する。
論文 参考訳(メタデータ) (2020-05-06T04:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。