論文の概要: Deep generative models in DataSHIELD
- arxiv url: http://arxiv.org/abs/2003.07775v1
- Date: Wed, 11 Mar 2020 10:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:22:28.553864
- Title: Deep generative models in DataSHIELD
- Title(参考訳): DataSHIELDにおける深部生成モデル
- Authors: Stefan Lenz, Harald Binder
- Abstract要約: 例えば、ドイツでは、患者の同意なしに研究目的で異なる病院からの定期的なデータをプールすることは不可能である。
DataSHIELDソフトウェアは、分散データの共同分析のためのインフラストラクチャと統計手法のセットを提供する。
我々は,分散患者データから複雑なパターンを保存する人工データを作成するために,DataSHIELD上に構築されたソフトウェア実装とともに方法論を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The best way to calculate statistics from medical data is to use the data of
individual patients. In some settings, this data is difficult to obtain due to
privacy restrictions. In Germany, for example, it is not possible to pool
routine data from different hospitals for research purposes without the consent
of the patients. The DataSHIELD software provides an infrastructure and a set
of statistical methods for joint analyses of distributed data. The contained
algorithms are reformulated to work with aggregated data from the participating
sites instead of the individual data. If a desired algorithm is not implemented
in DataSHIELD or cannot be reformulated in such a way, using artificial data is
an alternative. We present a methodology together with a software
implementation that builds on DataSHIELD to create artificial data that
preserve complex patterns from distributed individual patient data. Such data
sets of artificial patients, which are not linked to real patients, can then be
used for joint analyses. We use deep Boltzmann machines (DBMs) as generative
models for capturing the distribution of data. For the implementation, we
employ the package "BoltzmannMachines" from the Julia programming language and
wrap it for use with DataSHIELD, which is based on R. As an exemplary
application, we conduct a distributed analysis with DBMs on a synthetic data
set, which simulates genetic variant data. Patterns from the original data can
be recovered in the artificial data using hierarchical clustering of the
virtual patients, demonstrating the feasibility of the approach. Our
implementation adds to DataSHIELD the ability to generate artificial data that
can be used for various analyses, e. g. for pattern recognition with deep
learning. This also demonstrates more generally how DataSHIELD can be flexibly
extended with advanced algorithms from languages other than R.
- Abstract(参考訳): 医療データから統計を計算する最良の方法は、個々の患者のデータを使用することである。
一部の設定では、プライバシー制限のため、このデータは取得が難しい。
例えば、ドイツでは、患者の同意なしに研究目的で異なる病院からの定期的なデータをプールすることは不可能である。
DataSHIELDソフトウェアは、分散データの共同分析のためのインフラストラクチャと統計手法のセットを提供する。
含まれているアルゴリズムは、個々のデータではなく、参加者のサイトから集約されたデータを扱うように再構成される。
所望のアルゴリズムがDataSHIELDに実装されていない場合や、そのような方法で再構成できない場合、人工データを使用することが代替となる。
我々は,分散患者データから複雑なパターンを保存する人工データを作成するために,DataSHIELD上に構築されたソフトウェア実装とともに方法論を提案する。
このような人工患者のデータセットは、実際の患者とはリンクしないが、共同分析に使用できる。
我々は、データの分布を捉えるための生成モデルとしてディープボルツマンマシン(DBM)を用いる。
この実装では、juliaプログラミング言語のパッケージ"boltzmannmachines"を採用し、rをベースにしたdatashieldでラップし、例えば、遺伝的変異データをシミュレートする合成データセット上でdbmsを用いた分散分析を行う。
仮想患者の階層的クラスタリングを用いて、元のデータからのパターンを人工データに復元し、アプローチの実現可能性を示す。
我々の実装は、DataSHIELDに追加され、様々な分析に使用できる人工データを生成することができる。
g.
深層学習によるパターン認識に役立ちます
これはさらに一般的に、R以外の言語からの高度なアルゴリズムで、DataSHIELDを柔軟に拡張する方法を示している。
関連論文リスト
- Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - Synthetic Data from Diffusion Models Improve Drug Discovery Prediction [1.3686993145787065]
データあいまいさは、重要な研究課題に答えようとする研究者にとって、データのキュレーションを難しくする。
本稿では,リガンドおよび薬物動態データをエンドツーエンドに生成できる新しい拡散GNNモデルSyngandを提案する。
我々は,AqSolDB,LD50,hERGを中心とした下流回帰タスクにおいて,Syngand生成した合成目標データの有効性について,最初の有望な結果を示した。
論文 参考訳(メタデータ) (2024-05-06T19:09:37Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Medical data wrangling with sequential variational autoencoders [5.9207487081080705]
本稿では,逐次変分オートエンコーダ(vaes)を用いた異種データ型とバースト欠落データを用いた医療データ記録のモデル化を提案する。
GP-VAEモデルより計算複雑性が低く,両指標を用いた場合,Shi-VAEが最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-03-12T10:59:26Z) - Unsupervised Pre-trained Models from Healthy ADLs Improve Parkinson's
Disease Classification of Gait Patterns [3.5939555573102857]
パーキンソン病分類のための加速度計歩行データに関連する特徴を抽出する方法を示す。
我々の事前学習したソースモデルは畳み込みオートエンコーダで構成されており、ターゲット分類モデルは単純な多層パーセプトロンモデルである。
本研究は,Parkinson病分類の課題に対する事前学習モデルの選択が与える影響を,異なる活動群を用いて訓練した2つの異なるソースモデルについて検討する。
論文 参考訳(メタデータ) (2020-05-06T04:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。