Fugu-MT 論文翻訳(概要): Deep generative models in DataSHIELD

論文の概要: Deep generative models in DataSHIELD

arxiv url: http://arxiv.org/abs/2003.07775v1
Date: Wed, 11 Mar 2020 10:15:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-24 14:22:28.553864
Title: Deep generative models in DataSHIELD
Title（参考訳）: DataSHIELDにおける深部生成モデル
Authors: Stefan Lenz, Harald Binder
Abstract要約: 例えば、ドイツでは、患者の同意なしに研究目的で異なる病院からの定期的なデータをプールすることは不可能である。 DataSHIELDソフトウェアは、分散データの共同分析のためのインフラストラクチャと統計手法のセットを提供する。我々は,分散患者データから複雑なパターンを保存する人工データを作成するために,DataSHIELD上に構築されたソフトウェア実装とともに方法論を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The best way to calculate statistics from medical data is to use the data of individual patients. In some settings, this data is difficult to obtain due to privacy restrictions. In Germany, for example, it is not possible to pool routine data from different hospitals for research purposes without the consent of the patients. The DataSHIELD software provides an infrastructure and a set of statistical methods for joint analyses of distributed data. The contained algorithms are reformulated to work with aggregated data from the participating sites instead of the individual data. If a desired algorithm is not implemented in DataSHIELD or cannot be reformulated in such a way, using artificial data is an alternative. We present a methodology together with a software implementation that builds on DataSHIELD to create artificial data that preserve complex patterns from distributed individual patient data. Such data sets of artificial patients, which are not linked to real patients, can then be used for joint analyses. We use deep Boltzmann machines (DBMs) as generative models for capturing the distribution of data. For the implementation, we employ the package "BoltzmannMachines" from the Julia programming language and wrap it for use with DataSHIELD, which is based on R. As an exemplary application, we conduct a distributed analysis with DBMs on a synthetic data set, which simulates genetic variant data. Patterns from the original data can be recovered in the artificial data using hierarchical clustering of the virtual patients, demonstrating the feasibility of the approach. Our implementation adds to DataSHIELD the ability to generate artificial data that can be used for various analyses, e. g. for pattern recognition with deep learning. This also demonstrates more generally how DataSHIELD can be flexibly extended with advanced algorithms from languages other than R.
Abstract（参考訳）: 医療データから統計を計算する最良の方法は、個々の患者のデータを使用することである。一部の設定では、プライバシー制限のため、このデータは取得が難しい。例えば、ドイツでは、患者の同意なしに研究目的で異なる病院からの定期的なデータをプールすることは不可能である。 DataSHIELDソフトウェアは、分散データの共同分析のためのインフラストラクチャと統計手法のセットを提供する。含まれているアルゴリズムは、個々のデータではなく、参加者のサイトから集約されたデータを扱うように再構成される。所望のアルゴリズムがDataSHIELDに実装されていない場合や、そのような方法で再構成できない場合、人工データを使用することが代替となる。我々は,分散患者データから複雑なパターンを保存する人工データを作成するために,DataSHIELD上に構築されたソフトウェア実装とともに方法論を提案する。このような人工患者のデータセットは、実際の患者とはリンクしないが、共同分析に使用できる。我々は、データの分布を捉えるための生成モデルとしてディープボルツマンマシン(DBM)を用いる。この実装では、juliaプログラミング言語のパッケージ"boltzmannmachines"を採用し、rをベースにしたdatashieldでラップし、例えば、遺伝的変異データをシミュレートする合成データセット上でdbmsを用いた分散分析を行う。仮想患者の階層的クラスタリングを用いて、元のデータからのパターンを人工データに復元し、アプローチの実現可能性を示す。我々の実装は、DataSHIELDに追加され、様々な分析に使用できる人工データを生成することができる。 g. 深層学習によるパターン認識に役立ちますこれはさらに一般的に、R以外の言語からの高度なアルゴリズムで、DataSHIELDを柔軟に拡張する方法を示している。

関連論文リスト

Data Augmentation with Diffusion Models for Colon Polyp Localization on the Low Data Regime: How much real data is enough? [38.635356845350394]
局所化アノテーションと共同で大腸内視鏡画像を生成する様々な拡散モデルを訓練する実験を行った。生成されたデータは、低データ状態のYOLO v9に基づくモデルを用いて、ポリプローカライゼーションのタスクにおいて、様々な転送学習実験で使用される。
論文参考訳（メタデータ） (2024-11-28T05:25:33Z)
Synthetic ECG Generation for Data Augmentation and Transfer Learning in Arrhythmia Classification [1.7614607439356635]
本稿では,Deep Learningと異なる生成モデルを用いて生成した合成データの有用性について検討する。本研究では, 合成事前学習モデルを微調整し, 実データの比率を増大させることにより, 伝達学習の効果について検討する。
論文参考訳（メタデータ） (2024-11-27T15:46:34Z)
Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。手書き文字認識のためのMNISTデータセットの実験を行った。根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文参考訳（メタデータ） (2024-10-16T10:28:22Z)
Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文参考訳（メタデータ） (2024-09-03T17:12:21Z)
Synthetic Data from Diffusion Models Improve Drug Discovery Prediction [1.3686993145787065]
データあいまいさは、重要な研究課題に答えようとする研究者にとって、データのキュレーションを難しくする。本稿では,リガンドおよび薬物動態データをエンドツーエンドに生成できる新しい拡散GNNモデルSyngandを提案する。我々は,AqSolDB,LD50,hERGを中心とした下流回帰タスクにおいて,Syngand生成した合成目標データの有効性について,最初の有望な結果を示した。
論文参考訳（メタデータ） (2024-05-06T19:09:37Z)
Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文参考訳（メタデータ） (2024-04-10T17:27:54Z)
How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-05T15:42:53Z)
Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文参考訳（メタデータ） (2023-07-28T23:02:39Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Membership Inference Attacks against Synthetic Data through Overfitting Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文参考訳（メタデータ） (2023-02-24T11:27:39Z)
Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文参考訳（メタデータ） (2022-10-05T09:17:27Z)
MURAL: An Unsupervised Random Forest-Based Embedding for Electronic Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。 muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文参考訳（メタデータ） (2021-11-19T22:02:21Z)
Medical data wrangling with sequential variational autoencoders [5.9207487081080705]
本稿では,逐次変分オートエンコーダ(vaes)を用いた異種データ型とバースト欠落データを用いた医療データ記録のモデル化を提案する。 GP-VAEモデルより計算複雑性が低く,両指標を用いた場合,Shi-VAEが最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2021-03-12T10:59:26Z)
Unsupervised Pre-trained Models from Healthy ADLs Improve Parkinson's Disease Classification of Gait Patterns [3.5939555573102857]
パーキンソン病分類のための加速度計歩行データに関連する特徴を抽出する方法を示す。我々の事前学習したソースモデルは畳み込みオートエンコーダで構成されており、ターゲット分類モデルは単純な多層パーセプトロンモデルである。本研究は,Parkinson病分類の課題に対する事前学習モデルの選択が与える影響を,異なる活動群を用いて訓練した2つの異なるソースモデルについて検討する。
論文参考訳（メタデータ） (2020-05-06T04:08:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。