論文の概要: The Health Gym: Synthetic Health-Related Datasets for the Development of
Reinforcement Learning Algorithms
- arxiv url: http://arxiv.org/abs/2203.06369v1
- Date: Sat, 12 Mar 2022 07:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 02:09:12.047120
- Title: The Health Gym: Synthetic Health-Related Datasets for the Development of
Reinforcement Learning Algorithms
- Title(参考訳): the health gym: 強化学習アルゴリズム開発のための合成健康関連データセット
- Authors: Nicholas I-Hsien Kuo, Mark N. Polizzotto, Simon Finfer, Federico
Garcia, Anders S\"onnerborg, Maurizio Zazzi, Michael B\"ohm, Louisa Jorm and
Sebastiano Barbieri
- Abstract要約: Health Gymは、機械学習アルゴリズムのプロトタイプ、評価、比較に自由にアクセス可能な、合成医療データセットのコレクションである。
このデータセットはGAN(Generative Adversarial Network)を用いて作成された。
合成データセットの公開分布に関連する機密情報開示のリスクは非常に低いと推定される。
- 参考スコア(独自算出の注目度): 2.032684842401705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the machine learning research community has benefited
tremendously from the availability of openly accessible benchmark datasets.
Clinical data are usually not openly available due to their highly confidential
nature. This has hampered the development of reproducible and generalisable
machine learning applications in health care. Here we introduce the Health Gym
- a growing collection of highly realistic synthetic medical datasets that can
be freely accessed to prototype, evaluate, and compare machine learning
algorithms, with a specific focus on reinforcement learning. The three
synthetic datasets described in this paper present patient cohorts with acute
hypotension and sepsis in the intensive care unit, and people with human
immunodeficiency virus (HIV) receiving antiretroviral therapy in ambulatory
care. The datasets were created using a novel generative adversarial network
(GAN). The distributions of variables, and correlations between variables and
trends over time in the synthetic datasets mirror those in the real datasets.
Furthermore, the risk of sensitive information disclosure associated with the
public distribution of the synthetic datasets is estimated to be very low.
- Abstract(参考訳): 近年、機械学習研究コミュニティは、オープンアクセス可能なベンチマークデータセットの可用性から大きな恩恵を受けている。
臨床データは通常、機密性の高い性質のため公開されていない。
これにより、医療における再現可能で汎用的な機械学習アプリケーションの開発が妨げられた。
ここではHealth Gymを紹介します - プロトタイプに自由にアクセスし、評価し、機械学習アルゴリズムを比較し、強化学習に特化して比較できる、高度に現実的な合成医療データセットのコレクションです。
本稿では,集中治療室で急性低血圧と敗血症を呈する患者コホートと,抗レトロウイルス療法を受けたヒト免疫不全ウイルス(HIV)患者について述べる。
データセットはGAN(generative adversarial network)を使用して作成された。
変数の分布と、合成データセットにおける変数とトレンドの相関は、実際のデータセットのそれを反映している。
さらに、合成データセットの公開分布に関連する機密情報開示のリスクは非常に低いと推定される。
関連論文リスト
- CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines [14.386260536090628]
我々は合成データ生成に焦点をあて、特定の患者表現を用いてGPTモデルを訓練する能力を実証する。
これにより、観察医療成果パートナーシップ(OMOP)データフォーマットにシームレスに変換できる患者シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-02-06T20:58:36Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Synthetic Data in Healthcare [10.555189948915492]
本稿では,データ作成のための物理・統計シミュレーションの事例と医療・医療への応用について述べる。
人工物は、プライバシ、エクイティ、安全性、継続的な、因果学習を促進することができるが、欠陥や盲点を導入し、バイアスを伝播または誇張するリスクも負う。
論文 参考訳(メタデータ) (2023-04-06T17:23:39Z) - Synthesising Electronic Health Records: Cystic Fibrosis Patient Group [3.255030588361125]
本稿では,患者電子健康記録を合成する合成データ生成機能について検討する。
本研究では, 患者結果分類のための合成データの有用性を検証し, 不均衡なデータセットを合成データで拡張する際の予測性能の向上を検証した。
論文 参考訳(メタデータ) (2022-01-14T11:35:18Z) - Label scarcity in biomedicine: Data-rich latent factor discovery
enhances phenotype prediction [102.23901690661916]
低次元の埋め込み空間は、健康指標、ライフスタイル、および人口動態の予測をデータスカース化するために、英国バイオバンクの人口データセットから導出することができる。
半超越的アプローチによるパフォーマンス向上は、おそらく様々な医学データサイエンス応用にとって重要な要素となるだろう。
論文 参考訳(メタデータ) (2021-10-12T16:25:50Z) - A Deep Learning Approach to Private Data Sharing of Medical Images Using
Conditional GANs [1.2099130772175573]
COSENTYX (secukinumab) Ankylosing Spondylitis の臨床的検討に基づいて合成データセットを生成する方法を提案する。
本稿では, 画像の忠実度, サンプルの多様性, データセットのプライバシーの3つの重要な指標について, 合成データセットを生成し, その特性を詳細に分析する手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T17:24:06Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Temporal Phenotyping using Deep Predictive Clustering of Disease
Progression [97.88605060346455]
我々は、時系列データをクラスタリングするためのディープラーニングアプローチを開発し、各クラスタは、同様の将来的な結果を共有する患者から構成される。
2つの実世界のデータセットに対する実験により、我々のモデルは最先端のベンチマークよりも優れたクラスタリング性能が得られることが示された。
論文 参考訳(メタデータ) (2020-06-15T20:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。