論文の概要: Learning Representations from Incomplete EHR Data with Dual-Masked Autoencoding
- arxiv url: http://arxiv.org/abs/2602.15159v1
- Date: Mon, 16 Feb 2026 19:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.893209
- Title: Learning Representations from Incomplete EHR Data with Dual-Masked Autoencoding
- Title(参考訳): Dual-Masked Autoencodingによる不完全EHRデータからの学習表現
- Authors: Xiao Xiang, David Restrepo, Hyewon Jeong, Yugang Jia, Leo Anthony Celi,
- Abstract要約: 不完全時系列から直接学習するAID-MAE(Augmented-Intrinsic Dual-Masked Autoencoder)を提案する。
AID-MAEプロセスは、トークンの未マッピングサブセットのみを処理し、強いベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 3.6883644193065117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from electronic health records (EHRs) time series is challenging due to irregular sam- pling, heterogeneous missingness, and the resulting sparsity of observations. Prior self-supervised meth- ods either impute before learning, represent missingness through a dedicated input signal, or optimize solely for imputation, reducing their capacity to efficiently learn representations that support clinical downstream tasks. We propose the Augmented-Intrinsic Dual-Masked Autoencoder (AID-MAE), which learns directly from incomplete time series by applying an intrinsic missing mask to represent naturally missing values and an augmented mask that hides a subset of observed values for reconstruction during training. AID-MAE processes only the unmasked subset of tokens and consistently outperforms strong baselines, including XGBoost and DuETT, across multiple clinical tasks on two datasets. In addition, the learned embeddings naturally stratify patient cohorts in the representation space.
- Abstract(参考訳): 電子健康記録(EHR)の時系列からの学習は、不規則なサム・プリング、不均一な欠如、そして結果として生じる観察の空間性のために困難である。
それまでの自己教師型メスオードは、学習前に不完全であったり、専用の入力信号によって欠如を表わしていたり、命令のみのために最適化され、臨床下流タスクをサポートする表現を効率的に学習する能力が低下していた。
そこで,本研究では,自然に欠落した値を表すために固有欠落したマスクと,トレーニング中の復元のために観測値のサブセットを隠蔽する拡張マスクを用いて,不完全時系列から直接学習する拡張固有2次元自動符号化器(AID-MAE)を提案する。
AID-MAEプロセスはトークンの未マッピングサブセットのみを処理し、XGBoostやDuETTなどの強力なベースラインを、2つのデータセット上の複数の臨床タスクで一貫して上回る。
さらに、学習した埋め込みは、表現空間内の患者コホートを自然に成文化する。
関連論文リスト
- LSM-2: Learning from Incomplete Wearable Sensor Data [65.58595667477505]
本稿では,Adaptive and Inherited Masking (AIM)を用いた第2世代Large Sensor Model (LSM-2)を紹介する。
AIMは明示的な計算を必要とせず、不完全なデータから直接堅牢な表現を学習する。
AIMを用いた LSM-2 は, 分類, 回帰, 生成モデルなど, 多様なタスクにまたがる最高の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T17:57:11Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - A Masked Semi-Supervised Learning Approach for Otago Micro Labels Recognition [1.0663633381202409]
オタゴ運動プログラムは高齢者にとって重要なリハビリ活動であり、力とバランスを高め、転倒を防ぐことを目的としている。
既存のヒューマンアクティビティ認識システムはマクロアクティビティの持続時間に重点を置いている。
本研究は,OEPのマイクロアクティビティ認識において,このギャップを埋めることを目的とした,新しい半教師付き機械学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-21T12:00:01Z) - Temporal Cross-Attention for Dynamic Embedding and Tokenization of Multimodal Electronic Health Records [1.6609516435725236]
マルチモーダルな臨床時系列を正確に表現するための動的埋め込み・トークン化フレームワークを提案する。
術後合併症9例の発症予測に基礎的アプローチを応用した。
論文 参考訳(メタデータ) (2024-03-06T19:46:44Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - SAITS: Self-Attention-based Imputation for Time Series [6.321652307514677]
SAITSは時系列における値計算の欠落に対する自己注意機構に基づく新しい手法である。
斜めにマスキングされた2つの自己注意ブロックの重み付けされた組み合わせから、欠落した値を学ぶ。
テストの結果、SAITSは時系列計算タスクにおける最先端の手法を効率よく上回ることが示された。
論文 参考訳(メタデータ) (2022-02-17T08:40:42Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。