論文の概要: MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data
- arxiv url: http://arxiv.org/abs/2111.10452v1
- Date: Fri, 19 Nov 2021 22:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 14:11:18.535115
- Title: MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data
- Title(参考訳): ムラリ:電子健康記録データのための無監督ランダムフォレストベースの埋め込み
- Authors: Michal Gerasimiuk, Dennis Shung, Alexander Tong, Adrian Stanley,
Michael Schultz, Jeffrey Ngu, Loren Laine, Guy Wolf, Smita Krishnaswamy
- Abstract要約: 異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
- 参考スコア(独自算出の注目度): 59.26381272149325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in embedding or visualizing clinical patient data is the
heterogeneity of variable types including continuous lab values, categorical
diagnostic codes, as well as missing or incomplete data. In particular, in EHR
data, some variables are {\em missing not at random (MNAR)} but deliberately
not collected and thus are a source of information. For example, lab tests may
be deemed necessary for some patients on the basis of suspected diagnosis, but
not for others. Here we present the MURAL forest -- an unsupervised random
forest for representing data with disparate variable types (e.g., categorical,
continuous, MNAR). MURAL forests consist of a set of decision trees where
node-splitting variables are chosen at random, such that the marginal entropy
of all other variables is minimized by the split. This allows us to also split
on MNAR variables and discrete variables in a way that is consistent with the
continuous variables. The end goal is to learn the MURAL embedding of patients
using average tree distances between those patients. These distances can be fed
to nonlinear dimensionality reduction method like PHATE to derive visualizable
embeddings. While such methods are ubiquitous in continuous-valued datasets
(like single cell RNA-sequencing) they have not been used extensively in mixed
variable data. We showcase the use of our method on one artificial and two
clinical datasets. We show that using our approach, we can visualize and
classify data more accurately than competing approaches. Finally, we show that
MURAL can also be used to compare cohorts of patients via the recently proposed
tree-sliced Wasserstein distances.
- Abstract(参考訳): 臨床患者データを埋め込みまたは可視化する上での最大の課題は、連続的な検査値、分類学的診断コード、欠如または不完全なデータを含む可変型の多様性である。
特に、EHRデータでは、いくつかの変数はランダム(MNAR)ではなく、意図的に収集されていないため、情報源となっている。
例えば、検査は、疑わしい診断に基づいて、一部の患者に必要とされているが、他の患者には必要ではない。
ここでは、異なる変数タイプ(カテゴリー、連続、MNARなど)でデータを表現するための教師なしランダムフォレストであるMuraLフォレストを提示する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定木で構成され、他のすべての変数の端エントロピーが分割によって最小化される。
これにより、連続変数と一貫性のある方法で、MNAR変数と離散変数を分割することもできます。
目的は,患者間の平均木間距離を用いてMUL埋め込みを学習することである。
これらの距離はPHATEのような非線形次元減少法に供給され、可視化可能な埋め込みを導出する。
このような手法は、連続的に評価されたデータセット(シングルセルRNAシークエンシングなど)ではユビキタスであるが、混合変数データでは広く使われていない。
本手法を1つの人工的および2つの臨床データセットに適用した。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
最後に,最近提案されているツリースライスワッサースタイン距離を用いて,患者のコホートを比較することも可能であることを示した。
関連論文リスト
- Meta-Learners for Partially-Identified Treatment Effects Across Multiple Environments [67.80453452949303]
観察データから条件平均治療効果(CATE)を推定することは、パーソナライズされた医療など多くの応用に関係している。
ここでは、観測データが複数の環境からやってくる広範囲な環境に焦点を当てる。
任意の機械学習モデルと組み合わせて使用可能な境界を推定するために、異なるモデルに依存しない学習者(いわゆるメタ学習者)を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:31:43Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Time-dependent Iterative Imputation for Multivariate Longitudinal
Clinical Data [0.0]
Time-Dependent Iterative Imputationは時系列データを計算するための実用的なソリューションを提供する。
500,000人以上の患者を観察するコホートに応用した場合,本手法は最先端の計算法より優れていた。
論文 参考訳(メタデータ) (2023-04-16T16:10:49Z) - A Penalty Approach for Normalizing Feature Distributions to Build
Confounder-Free Models [11.818509522227565]
MetaData Normalization (MDN) は、学習不能なクローズドフォームソリューションに基づいてメタデータと各特徴の線形関係を推定する。
罰則法(PDMN)を適用してMDN法を拡張した。
MDNによるモデル精度の向上とMDN上のMDNを用いた共同設立者からの独立性の向上を示す。
論文 参考訳(メタデータ) (2022-07-11T04:02:12Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Medical data wrangling with sequential variational autoencoders [5.9207487081080705]
本稿では,逐次変分オートエンコーダ(vaes)を用いた異種データ型とバースト欠落データを用いた医療データ記録のモデル化を提案する。
GP-VAEモデルより計算複雑性が低く,両指標を用いた場合,Shi-VAEが最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-03-12T10:59:26Z) - Diffusion Earth Mover's Distance and Distribution Embeddings [61.49248071384122]
拡散は$tildeo(n)$ timeで計算でき、ツリーベースのような同様の高速アルゴリズムよりも正確である。
拡散は完全微分可能であり、深層ニューラルネットワークのような勾配拡散フレームワークの将来の使用に適している。
論文 参考訳(メタデータ) (2021-02-25T13:18:32Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z) - VAEs in the Presence of Missing Data [6.397263087026567]
我々は、欠落したデータを生成する汚職過程の新しい潜伏変数モデルを開発し、対応する抽出可能なエビデンスローバウンド(ELBO)を導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元入力にスケールし、データ要素が欠落しているか否かの指標変数にVAEエンコーダとデコーダの両方にアクセスできる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。
論文 参考訳(メタデータ) (2020-06-09T14:40:00Z) - Fr\'echet random forests for metric space valued regression with non
euclidean predictors [0.0]
我々はFr'echet木とFr'echetランダムフォレストを導入し、入力変数と出力変数が一般的な距離空間で値を取るデータを処理する。
データ駆動分割を用いたFr'echet回帰図予測器の一貫性定理をFr'echetの純粋にランダムな木に適用する。
論文 参考訳(メタデータ) (2019-06-04T22:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。