論文の概要: A random shuffle method to expand a narrow dataset and overcome the
associated challenges in a clinical study: a heart failure cohort example
- arxiv url: http://arxiv.org/abs/2012.06784v1
- Date: Sat, 12 Dec 2020 10:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 08:11:35.181416
- Title: A random shuffle method to expand a narrow dataset and overcome the
associated challenges in a clinical study: a heart failure cohort example
- Title(参考訳): 狭義のデータセットを拡張して関連する課題を克服するためのランダムシャッフル法--心不全コホート例
- Authors: Lorenzo Fassina, Alessandro Faragli, Francesco Paolo Lo Muzio,
Sebastian Kelle, Carlo Campana, Burkert Pieske, Frank Edelmann, Alessio
Alogna
- Abstract要約: 本研究の目的は、統計的に合法なHFデータセットのカーディナリティを高めるためにランダムシャッフル法を設計することであった。
提案されたランダムシャッフル法は、HFデータセットのカーディナリティを10回、およびランダムな繰り返し測定アプローチに続いて21回向上させることができた。
- 参考スコア(独自算出の注目度): 50.591267188664666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heart failure (HF) affects at least 26 million people worldwide, so
predicting adverse events in HF patients represents a major target of clinical
data science. However, achieving large sample sizes sometimes represents a
challenge due to difficulties in patient recruiting and long follow-up times,
increasing the problem of missing data. To overcome the issue of a narrow
dataset cardinality (in a clinical dataset, the cardinality is the number of
patients in that dataset), population-enhancing algorithms are therefore
crucial. The aim of this study was to design a random shuffle method to enhance
the cardinality of an HF dataset while it is statistically legitimate, without
the need of specific hypotheses and regression models. The cardinality
enhancement was validated against an established random repeated-measures
method with regard to the correctness in predicting clinical conditions and
endpoints. In particular, machine learning and regression models were employed
to highlight the benefits of the enhanced datasets. The proposed random shuffle
method was able to enhance the HF dataset cardinality (711 patients before
dataset preprocessing) circa 10 times and circa 21 times when followed by a
random repeated-measures approach. We believe that the random shuffle method
could be used in the cardiovascular field and in other data science problems
when missing data and the narrow dataset cardinality represent an issue.
- Abstract(参考訳): 心臓不全(HF)は世界中で少なくとも2600万人に影響を与えるため、HF患者の有害事象を予測することは臨床データ科学の主要なターゲットとなっている。
しかし、大規模なサンプルサイズを達成することは、患者募集の難しさや長時間のフォローアップが課題であり、欠落データの問題が増大することもある。
狭いデータセット濃度の問題(臨床データセットでは、そのデータセットの患者数を基数とする)を克服するには、人口増加アルゴリズムが不可欠である。
本研究の目的は,特定の仮説や回帰モデルを必要とせず,統計的に正当でありながら,HFデータセットの濃度を高めるランダムシャッフル法を設計することであった。
臨床症状と終点の予測における正当性について, ランダム反復測定法に対して, 基数向上を検証した。
特に、強化データセットの利点を強調するために、機械学習と回帰モデルが採用された。
提案したランダムシャッフル法は, データセット前処理前のHFデータセット濃度(データセット前処理前711例)を10回, 21回, ランダム反復測定アプローチで改善することができた。
このランダムシャッフル法は,欠落データや狭いデータセットの濃度が問題となる場合に,心血管領域や他のデータサイエンス問題に応用できると考えている。
関連論文リスト
- SeqRisk: Transformer-augmented latent variable model for improved survival prediction with longitudinal data [4.1476925904032464]
本研究では,変分オートエンコーダ (VAE) と長手VAE (LVAE) をトランスフォーマーエンコーダとコックス比例ハザードモジュールに結合してリスク予測を行う手法であるSeqRiskを提案する。
SeqRiskは、シミュレーションと実世界の両方のデータセットにおける既存のアプローチと比較して、競合的に機能することを示した。
論文 参考訳(メタデータ) (2024-09-19T12:35:25Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Time-dependent Iterative Imputation for Multivariate Longitudinal
Clinical Data [0.0]
Time-Dependent Iterative Imputationは時系列データを計算するための実用的なソリューションを提供する。
500,000人以上の患者を観察するコホートに応用した場合,本手法は最先端の計算法より優れていた。
論文 参考訳(メタデータ) (2023-04-16T16:10:49Z) - Statistical and Computational Phase Transitions in Group Testing [73.55361918807883]
本研究の目的は、希少な疾患を患っているk人の集団を同定することである。
個々人のテストを割り当てるための2つの異なる単純なランダムな手順を考える。
論文 参考訳(メタデータ) (2022-06-15T16:38:50Z) - Practical Challenges in Differentially-Private Federated Survival
Analysis of Medical Data [57.19441629270029]
本稿では,ニューラルネットワークの本質的特性を活用し,生存分析モデルの訓練過程を関連づける。
小さな医療データセットと少数のデータセンターの現実的な設定では、このノイズはモデルを収束させるのが難しくなります。
DPFed-post は,私的フェデレート学習方式に後処理の段階を追加する。
論文 参考訳(メタデータ) (2022-02-08T10:03:24Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - A Hamiltonian Monte Carlo Model for Imputation and Augmentation of
Healthcare Data [0.6719751155411076]
変数や質問のデータが収集されないか利用できないため、ほとんどすべての臨床研究に不足する値が存在します。
既存のモデルは通常、プライバシの懸念を考慮せず、複数の機能にまたがる固有の相関を利用していない。
本研究では, 欠落値のインプットと高次元医療データへの付加的サンプル生成に対するベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-03T11:57:42Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。