論文の概要: PaReGTA: An LLM-based EHR Data Encoding Approach to Capture Temporal Information
- arxiv url: http://arxiv.org/abs/2602.19661v1
- Date: Mon, 23 Feb 2026 10:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.76227
- Title: PaReGTA: An LLM-based EHR Data Encoding Approach to Capture Temporal Information
- Title(参考訳): PaReGTA: 時間情報取得のためのLLMベースのEHRデータ符号化手法
- Authors: Kihyuk Yoon, Lingchao Mao, Catherine Chong, Todd J. Schwedt, Chia-Chun Chiang, Jing Li,
- Abstract要約: PaReGTAは、縦方向のEHRイベントを、明示的な時間的手がかりを持つ訪問レベルのテンプレートテキストに変換する。
文埋め込みモデルの軽量なコントラスト微調整により、ドメイン適応型の訪問埋め込みを学習する。
ハイブリッド時間プールを用いた固定次元患者表現への訪問埋め込みを集約する。
- 参考スコア(独自算出の注目度): 4.768886949096516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal information in structured electronic health records (EHRs) is often lost in sparse one-hot or count-based representations, while sequence models can be costly and data-hungry. We propose PaReGTA, an LLM-based encoding framework that (i) converts longitudinal EHR events into visit-level templated text with explicit temporal cues, (ii) learns domain-adapted visit embeddings via lightweight contrastive fine-tuning of a sentence-embedding model, and (iii) aggregates visit embeddings into a fixed-dimensional patient representation using hybrid temporal pooling that captures both recency and globally informative visits. Because PaReGTA does not require training from scratch but instead utilizes a pre-trained LLM, it can perform well even in data-limited cohorts. Furthermore, PaReGTA is model-agnostic and can benefit from future EHR-specialized sentence-embedding models. For interpretability, we introduce PaReGTA-RSS (Representation Shift Score), which quantifies clinically defined factor importance by recomputing representations after targeted factor removal and projecting representation shifts through a machine learning model. On 39,088 migraine patients from the All of Us Research Program, PaReGTA outperforms sparse baselines for migraine type classification while deep sequential models were unstable in our cohort.
- Abstract(参考訳): 構造化された電子健康記録(EHR)の時間情報は、スパースワンホットやカウントベースの表現でしばしば失われる。
LLMに基づく符号化フレームワークPaReGTAを提案する。
(i)縦 EHR イベントを明示的な時間的手がかりを持つ訪問レベルのテンプレートテキストに変換する。
(二)文埋め込みモデルの軽量コントラスト微調整によりドメイン適応型訪問埋め込みを学習し、
(3)直立とグローバルな情報的訪問の両方を捉えたハイブリッド時間プーリングを用いて,固定次元の患者表現への訪問の埋め込みを集約する。
PaReGTAは、スクラッチからトレーニングを必要とせず、訓練済みのLLMを使用するため、データ限定コホートでもうまく機能する。
さらに、PaReGTAはモデルに依存しず、将来のEHR特化文埋め込みモデルの恩恵を受けることができる。
本稿では,対象因子の除去後に表現を再計算し,機械学習モデルを用いて表現シフトを投影することにより,臨床的に定義された因子の重要度を定量化するPaReGTA-RSS(Representation Shift Score)を提案する。
また,全米国研究プログラムの片頭痛39,088例において,PaReGTAは片頭痛型分類において軽度ベースラインを上回り,深部シーケンシャルモデルでは不安定であった。
関連論文リスト
- Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction [44.23284500920266]
このベンチマークは、2つの異なる臨床環境におけるデータキュレーションと評価を標準化する。
実験によると、イベントストリームモデルは、常に最強のパフォーマンスを提供する。
特徴選択戦略は臨床環境に適応する必要がある。
論文 参考訳(メタデータ) (2025-10-10T09:03:47Z) - Analysis of Transferability Estimation Metrics for Surgical Phase Recognition [3.3285108719932555]
微調整された事前学習モデルは現代の機械学習の基盤となり、限られたラベル付きデータで実践者がハイパフォーマンスを達成できるようになった。
専門的アノテーションが特に時間がかかり費用がかかる外科的ビデオ解析では、下流タスクに最適な事前学習モデルを特定することが重要かつ困難である。
我々は,2つの多様なデータセット上で,LogME,H-Score,TransRateの3つの代表的な指標の総合ベンチマークを行った。
論文 参考訳(メタデータ) (2025-08-22T18:05:33Z) - CAAT-EHR: Cross-Attentional Autoregressive Transformer for Multimodal Electronic Health Record Embeddings [0.0]
本稿では,タスク非依存の縦埋め込みを生のEHRデータから生成する新しいアーキテクチャであるCAAT-EHRを紹介する。
自己回帰デコーダは、事前訓練中に将来の時刻データを予測してエンコーダを補完し、その結果の埋め込みが時間的整合性と整合性を維持する。
論文 参考訳(メタデータ) (2025-01-31T05:00:02Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches [3.7873597471903944]
本稿では,個別のフレームベースアプローチに時間的整合性を加えるための,可変時間パラメータRT-GANを用いた軽量な解を提案する。
大腸内視鏡検査における2症例に対するアプローチの有効性について検討した。
論文 参考訳(メタデータ) (2023-10-02T03:13:26Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - DeepRite: Deep Recurrent Inverse TreatmEnt Weighting for Adjusting
Time-varying Confounding in Modern Longitudinal Observational Data [68.29870617697532]
時系列データにおける時間変化の相違に対するDeep Recurrent Inverse TreatmEnt重み付け(DeepRite)を提案する。
DeepRiteは、合成データから基底的真理を復元し、実際のデータから偏りのない処理効果を推定する。
論文 参考訳(メタデータ) (2020-10-28T15:05:08Z) - Longitudinal Variational Autoencoder [1.4680035572775534]
不足値を含む高次元データを解析するための一般的なアプローチは、変分オートエンコーダ(VAE)を用いた低次元表現を学習することである。
標準的なVAEは、学習した表現はi.d.であり、データサンプル間の相関を捉えることができないと仮定する。
本稿では,多出力加法的ガウス過程(GP)を用いて,構造化された低次元表現を学習するVAEの能力を拡張した縦型VAE(L-VAE)を提案する。
我々の手法は時間変化の共有効果とランダム効果の両方に同時に対応でき、構造化された低次元表現を生成する。
論文 参考訳(メタデータ) (2020-06-17T10:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。