論文の概要: Imputation of Unknown Missingness in Sparse Electronic Health Records
- arxiv url: http://arxiv.org/abs/2602.20442v1
- Date: Tue, 24 Feb 2026 01:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.56328
- Title: Imputation of Unknown Missingness in Sparse Electronic Health Records
- Title(参考訳): 軽度電子健康記録における未知の欠失の計算
- Authors: Jun Han, Josue Nassar, Sanjit Singh Batra, Aldo Cordova-Palomera, Vijay Nori, Robert E. Tillman,
- Abstract要約: 本研究では,2進EHRにおける未知の値の復号化のための汎用アルゴリズムを開発した。
我々は、データ不足を予測した場合に、出力が適応的に閾値付けされたトランスフォーマーベースのデノナイジングニューラルネットワークを設計する。
本研究は,既存の計算手法と比較して,実際のEHRデータセット内での医用符号の復号化における精度の向上を実証した。
- 参考スコア(独自算出の注目度): 4.487420781682439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning holds great promise for advancing the field of medicine, with electronic health records (EHRs) serving as a primary data source. However, EHRs are often sparse and contain missing data due to various challenges and limitations in data collection and sharing between healthcare providers. Existing techniques for imputing missing values predominantly focus on known unknowns, such as missing or unavailable values of lab test results; most do not explicitly address situations where it is difficult to distinguish what is missing. For instance, a missing diagnosis code in an EHR could signify either that the patient has not been diagnosed with the condition or that a diagnosis was made, but not shared by a provider. Such situations fall into the paradigm of unknown unknowns. To address this challenge, we develop a general purpose algorithm for denoising data to recover unknown missing values in binary EHRs. We design a transformer-based denoising neural network where the output is thresholded adaptively to recover values in cases where we predict data are missing. Our results demonstrate improved accuracy in denoising medical codes within a real EHR dataset compared to existing imputation approaches and leads to increased performance on downstream tasks using the denoised data. In particular, when applying our method to a real world application, predicting hospital readmission from EHRs, our method achieves statistically significant improvement over all existing baselines.
- Abstract(参考訳): 機械学習は医学分野を前進させる大きな約束であり、電子健康記録(EHR)が主要なデータソースとなっている。
しかしながら、EHRはスパースで、データ収集や医療提供者間の共有におけるさまざまな課題や制限のために、欠落したデータを含んでいることが多い。
既存の検査結果の欠落や不利用可能な値など、既知の未知に主に焦点をあてる手法は、欠落しているものを区別することが困難である状況に明示的に対処するものではない。
例えば、EHRに欠落している診断符号は、患者が診断を受けていないか、診断が下されたか、提供者によって共有されていないかのどちらかを示すことができる。
このような状況は未知の未知のパラダイムに該当する。
この課題に対処するため,2進EHRにおいて未知の値を返すために,データの復号化を行う汎用アルゴリズムを開発した。
我々は、データ不足を予測した場合に、出力が適応的に閾値付けされたトランスフォーマーベースのデノナイジングニューラルネットワークを設計する。
以上の結果から,既存の計算手法と比較して,実際のEHRデータセット内における医療用コードの復号化精度が向上し,復号化データを用いた下流タスクの性能向上につながった。
特に,本手法を実世界の応用に適用し,EHRからの入院許可を予測した場合,既存の全てのベースラインに対して統計的に有意な改善が達成される。
関連論文リスト
- PRISM: Mitigating EHR Data Sparsity via Learning from Missing Feature Calibrated Prototype Patient Representations [7.075420686441701]
PRISMは、類似した患者のプロトタイプ表現を活用することで、データを間接的にインプットするフレームワークである。
PRISMには、ステータスの欠如を考慮した各機能の信頼性を評価する機能信頼モジュールも含まれている。
MIMIC-III, MIMIC-IV, PhysioNet Challenge 2012, eICU データセットを用いた実験により, PRISM の院内死亡予測と30日間の読解作業における優れた性能が示された。
論文 参考訳(メタデータ) (2023-09-08T07:01:38Z) - Are we certain it's anomalous? [57.729669157989235]
時系列における異常検出は、高度に非線形な時間的相関のため、異常は稀であるため、複雑なタスクである。
本稿では,異常検出(HypAD)におけるハイパボリック不確実性の新しい利用法を提案する。
HypADは自己指導で入力信号を再構築する。
論文 参考訳(メタデータ) (2022-11-16T21:31:39Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - Sequential Diagnosis Prediction with Transformer and Ontological
Representation [35.88195694025553]
本稿では,患者が訪問する時間スタンプと滞在時間との間に不規則な間隔を対応させるSETORと呼ばれる,エンドツーエンドの頑健なトランスフォーマーモデルを提案する。
2つの実世界の医療データセットで実施された実験により、シーケンシャルな診断予測モデルSETORは、従来の最先端のアプローチよりも優れた予測結果が得られることが示された。
論文 参考訳(メタデータ) (2021-09-07T13:09:55Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Medical data wrangling with sequential variational autoencoders [5.9207487081080705]
本稿では,逐次変分オートエンコーダ(vaes)を用いた異種データ型とバースト欠落データを用いた医療データ記録のモデル化を提案する。
GP-VAEモデルより計算複雑性が低く,両指標を用いた場合,Shi-VAEが最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-03-12T10:59:26Z) - Handling Non-ignorably Missing Features in Electronic Health Records
Data Using Importance-Weighted Autoencoders [8.518166245293703]
本稿では,生体データのランダムなパターンではなく,欠落を柔軟に扱うために,重要度重み付きオートエンコーダ(iwaes)と呼ばれるvaesの新たな拡張を提案する。
提案手法は,組み込みニューラルネットワークを用いて欠落機構をモデル化し,欠落機構の正確な形式を事前に指定する必要をなくした。
論文 参考訳(メタデータ) (2021-01-18T22:53:29Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - VAEs in the Presence of Missing Data [6.397263087026567]
我々は、欠落したデータを生成する汚職過程の新しい潜伏変数モデルを開発し、対応する抽出可能なエビデンスローバウンド(ELBO)を導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元入力にスケールし、データ要素が欠落しているか否かの指標変数にVAEエンコーダとデコーダの両方にアクセスできる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。
論文 参考訳(メタデータ) (2020-06-09T14:40:00Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。