論文の概要: Coefficient of Variation Masking: A Volatility-Aware Strategy for EHR Foundation Models
- arxiv url: http://arxiv.org/abs/2512.05216v1
- Date: Thu, 04 Dec 2025 19:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.791651
- Title: Coefficient of Variation Masking: A Volatility-Aware Strategy for EHR Foundation Models
- Title(参考訳): 変分マスキングの係数:EHRファンデーションモデルにおけるボラティリティを考慮した戦略
- Authors: Rajna Fani, Rafi Al Attrach, David Restrepo, Yugang Jia, Leo Anthony Celi, Peter Schüffler,
- Abstract要約: 変動マスキング(CVMasking)のボラティリティを考慮した事前学習戦略を提案する。
CVMアスキングは、各特徴の固有の変動に応じてマスキング確率を適応的に調整する。
実験により、CVMaskingは再構築を促進し、下流予測性能を改善し、収束を加速することが示された。
- 参考スコア(独自算出の注目度): 2.236179693109115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked autoencoders (MAEs) are increasingly applied to electronic health records (EHR) for learning general-purpose representations that support diverse clinical tasks. However, existing approaches typically rely on uniform random masking, implicitly assuming all features are equally predictable. In reality, laboratory tests exhibit substantial heterogeneity in volatility: some biomarkers (e.g., sodium) remain stable, while others (e.g., lactate) fluctuate considerably and are more difficult to model. Clinically, volatile biomarkers often signal acute pathophysiology and require more sophisticated modeling to capture their complex temporal patterns. We propose a volatility-aware pretraining strategy, Coefficient of Variation Masking (CV-Masking), that adaptively adjusts masking probabilities according to the intrinsic variability of each feature. Combined with a value-only masking objective aligned with clinical workflows, CV-Masking yields systematic improvements over random and variance-based strategies. Experiments on a large panel of laboratory tests show that CV-Masking enhances reconstruction, improves downstream predictive performance, and accelerates convergence, producing more robust and clinically meaningful EHR representations.
- Abstract(参考訳): マスケオートエンコーダ(MAE)は、様々な臨床タスクをサポートする汎用的な表現を学習するための電子健康記録(EHR)にますます応用されている。
しかし、既存のアプローチは一般に均一なランダムマスキングに依存しており、全ての特徴が等しく予測可能であることを暗黙的に仮定する。
いくつかのバイオマーカー(例えばナトリウム)は安定であり、他のマーカー(例えば乳酸ナトリウム)はかなり変動し、モデル化が困難である。
臨床的には、揮発性バイオマーカーはしばしば急性の病態を信号し、複雑な時間パターンを捉えるためにより洗練されたモデリングを必要とする。
本稿では,各特徴の内在的変動に応じてマスキング確率を適応的に調整する変動マスキング(CV-Masking)のボラティリティを考慮した事前学習戦略を提案する。
CV-Maskingは、臨床ワークフローに沿った価値のみのマスキング目標と組み合わせることで、ランダムおよび分散ベースの戦略よりも体系的な改善をもたらす。
実験室での大規模な実験では、CV-Maskingは再建を促進し、下流での予測性能を改善し、収束を加速し、より堅牢で臨床的に有意義なERH表現を生み出すことが示されている。
関連論文リスト
- OmniTFT: Omni Target Forecasting for Vital Signs and Laboratory Result Trajectories in Multi Center ICU Data [12.22073008865211]
OmniTFTは、高頻度のバイタルサインを共同で学習し、予測する深層学習フレームワークである。
スライディングウィンドウ等化サンプリング、周波数認識型埋め込み収縮、階層変数選択、影響対応型アテンションキャリブレーションの4つの新しい手法を実装している。
MIMIC-III、MIMIC-IV、およびeICUデータセットにおいて、バイタルサインと実験結果の両方で大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-11-23T05:17:22Z) - Deep Learning Approach for Clinical Risk Identification Using Transformer Modeling of Heterogeneous EHR Data [0.0]
本研究では,トランスフォーマーを用いた経時的モデリング手法を提案し,異種ERHデータを用いた臨床リスク分類の課題に対処する。
この方法はマルチソース医療機能を入力とし、構造化データと非構造化データの統一表現を実現するために特徴埋め込み層を用いる。
実験結果から,提案モデルは従来の機械学習モデルや時間的深層学習モデルよりも精度,リコール,精度,F1スコアで優れていた。
論文 参考訳(メタデータ) (2025-11-06T08:02:21Z) - Diffusion-Guided Mask-Consistent Paired Mixing for Endoscopic Image Segmentation [57.37991748282666]
本稿では, 試料混合と拡散合成の強度を融合した拡散誘導型パラダイムを提案する。
各実画像について、合成対を同じマスクの下で生成し、その対をマスク一貫性ペアドミキシング(MCPMix)の制御可能な入力として使用する。
これは、共有幾何学の下で合成および実際の外観を円滑にブリッジする中間サンプルの連続的な族を生成する。
論文 参考訳(メタデータ) (2025-11-05T06:14:19Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - Representation Learning of Lab Values via Masked AutoEncoders [2.785172582119726]
逐次的な実験値の計算のためのトランスフォーマーベースのマスク付きオートエンコーダフレームワークであるLab-MAEを提案する。
Lab-MAEは、患者の人口集団間で同等のパフォーマンスを達成し、臨床予測において公平性を向上させる。
論文 参考訳(メタデータ) (2025-01-05T20:26:49Z) - Beyond Random Missingness: Clinically Rethinking for Healthcare Time Series Imputation [7.21960656196858]
本研究では,医療環境におけるマスキング戦略が時系列計算モデルに及ぼす影響について検討した。
PhysioNet Challenge 2012データセットを使用して、異なるマスキング実装が、計算精度と下流臨床予測の両方にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2024-05-26T18:05:12Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。