論文の概要: Limits of Generative Pre-Training in Structured EMR Trajectories with Irregular Sampling
- arxiv url: http://arxiv.org/abs/2510.22878v1
- Date: Mon, 27 Oct 2025 00:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.571039
- Title: Limits of Generative Pre-Training in Structured EMR Trajectories with Irregular Sampling
- Title(参考訳): 不規則サンプリングによる構造的EMR軌道における生成前訓練の限界
- Authors: Nicholas I-Hsien Kuo, Blanca Gallego, Louisa Jorm,
- Abstract要約: ファンデーションモデルは、複雑なパターンやモチーフをキャプチャするために自動回帰事前トレーニングを使用して、広大なデータセットでトレーニングされたアーキテクチャを指す。
HIVおよび急性低血圧データセットの経時的ART(Sequence-to-Sequence LSTM)とTransformer(reduced Transformer)の2つの自己回帰モデル(Sequence-to-Sequence LSTM)をトレーニングした。
ランダムな視線間ギャップを介してトレーニング中に制御された不規則性が追加されたが、テストシーケンスは完了しなかった。
どちらも特徴分布を再現したが、クロスフィーチャー構造を保存できなかった。
- 参考スコア(独自算出の注目度): 0.7537475180985093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models refer to architectures trained on vast datasets using autoregressive pre-training from natural language processing to capture intricate patterns and motifs. They were originally developed to transfer such learned knowledge to downstream predictive tasks. Recently, however, some studies repurpose these learned representations for phenotype discovery without rigorous validation, risking superficially realistic but clinically incoherent embeddings. To test this mismatch, we trained two autoregressive models -- a sequence-to-sequence LSTM and a reduced Transformer -- on longitudinal ART for HIV and Acute Hypotension datasets. Controlled irregularity was added during training via random inter-visit gaps, while test sequences stayed complete. Patient-trajectory synthesis evaluated distributional and correlational fidelity. Both reproduced feature distributions but failed to preserve cross-feature structure -- showing that generative pre-training yields local realism but limited clinical coherence. These results highlight the need for domain-specific evaluation and support trajectory synthesis as a practical probe before fine-tuning or deployment.
- Abstract(参考訳): ファンデーションモデルは、自然言語処理からの自己回帰事前トレーニングを使用して、複雑なパターンやモチーフをキャプチャすることで、膨大なデータセットでトレーニングされたアーキテクチャを指す。
もともとは、そのような知識を下流の予測タスクに伝達するために開発された。
しかし、近年、これらの学習された表現表現を厳密な検証なしに再利用し、表面的には現実的だが臨床的に一貫性のない埋め込みを危険にさらす研究もある。
このミスマッチをテストするために、HIVおよび急性低血圧データセットの経時的ARTにおいて、2つの自己回帰モデル(シーケンス・ツー・シーケンスLSTMとリミットトランスフォーマー)をトレーニングした。
ランダムな視線間ギャップを介してトレーニング中に制御された不規則性が追加されたが、テストシーケンスは完了しなかった。
患者軌道合成による分布性および相関性の評価
どちらも特徴分布を再現したが、機能横断構造を保たなかった。
これらの結果は、微調整や展開前における実践的なプローブとして、ドメイン固有の評価と軌道合成のサポートの必要性を強調している。
関連論文リスト
- rETF-semiSL: Semi-Supervised Learning for Neural Collapse in Temporal Data [44.17657834678967]
本稿では,ニューラル・コラプス現象を満たす潜在表現を強制する,新しい半教師付き事前学習戦略を提案する。
LSTM, トランスフォーマー, 状態空間モデルに適用した場合, 従来のプリテキストタスクよりも有意に優れることを示す。
論文 参考訳(メタデータ) (2025-08-13T19:16:47Z) - Diffusion with a Linguistic Compass: Steering the Generation of Clinically Plausible Future sMRI Representations for Early MCI Conversion Prediction [13.937881108738042]
そこで本研究では,臨床応用可能な将来のsMRI表現を直接ベースラインデータから合成する拡散型フレームワークを提案する。
ADNIとAIBLのコホートの実験では、MCI-Diffは最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-05T07:01:05Z) - Memorization and Regularization in Generative Diffusion Models [5.128303432235475]
拡散モデルは、生成モデリングの強力なフレームワークとして登場した。
この分析は、解析的に抽出可能な最小化器の再生を避けるための正規化の必要性を強調している。
実験は記憶の文脈で評価され、今後の正規化の方向性が強調される。
論文 参考訳(メタデータ) (2025-01-27T05:17:06Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in
Disease Progression [82.85825388788567]
我々は、ラベル付き時系列データから予測時相パターンの表現型を発見するために、新しい時間的クラスタリング手法T-Phenotypeを開発した。
T-フェノタイプは, 評価ベースラインのすべてに対して, 最良の表現型発見性能を示す。
論文 参考訳(メタデータ) (2023-02-24T13:30:35Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - Interpretable Additive Recurrent Neural Networks For Multivariate
Clinical Time Series [4.125698836261585]
本稿では,モデル内の変数間の関係を加法的に強制することで,モデルの複雑性と精度のバランスをとるInterpretable-RNN(I-RNN)を提案する。
I-RNNは、時間内に不均一にサンプリングされ、非同期に取得され、データが欠落している臨床時系列の特徴を特に捉えている。
本研究は,院内死亡率予測のためのPhysoronet 2012 ChallengeデータセットのI-RNNモデルと,集中治療室における血行動態の介入を予測するリアルな臨床診断支援タスクについて評価する。
論文 参考訳(メタデータ) (2021-09-15T22:30:19Z) - Mode recovery in neural autoregressive sequence modeling [55.05526174291747]
最近の研究では、神経自己回帰配列モデルの予期せぬ特性と望ましくない性質が明らかにされている。
本研究では,分布のモードや局所的な最大値が,学習チェーン全体を通してどのように維持されているかを検討する。
今後の研究は、潜在能力と危険性を完全に理解するために、学習連鎖全体を考慮しなくてはならないと結論付けている。
論文 参考訳(メタデータ) (2021-06-10T02:17:28Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。