論文の概要: Can we generate portable representations for clinical time series data using LLMs?
- arxiv url: http://arxiv.org/abs/2603.23987v1
- Date: Wed, 25 Mar 2026 06:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.163479
- Title: Can we generate portable representations for clinical time series data using LLMs?
- Title(参考訳): LLMを用いて臨床時系列データにポータブルな表現を生成することができるか?
- Authors: Zongliang Ji, Yifei Sun, Andre Amaral, Anna Goldenberg, Rahul G. Krishnan,
- Abstract要約: 本研究では,広範言語モデル (LLM) が患者への移植可能な埋め込み,すなわち患者の表現を創出するかどうかを考察する。
当社のアプローチは単純で使いやすく,グリッド計算による流通と競合するものであることが分かりました。
これらのポータブルな表現を用いることで、数ショットの学習が向上し、ベースラインに対する年齢や性別の人口的回復性が向上しないことがわかった。
- 参考スコア(独自算出の注目度): 14.97461269508036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying clinical ML is slow and brittle: models that work at one hospital often degrade under distribution shifts at the next. In this work, we study a simple question -- can large language models (LLMs) create portable patient embeddings i.e. representations of patients enable a downstream predictor built on one hospital to be used elsewhere with minimal-to-no retraining and fine-tuning. To do so, we map from irregular ICU time series onto concise natural language summaries using a frozen LLM, then embed each summary with a frozen text embedding model to obtain a fixed length vector capable of serving as input to a variety of downstream predictors. Across three cohorts (MIMIC-IV, HIRID, PPICU), on multiple clinically grounded forecasting and classification tasks, we find that our approach is simple, easy to use and competitive with in-distribution with grid imputation, self-supervised representation learning, and time series foundation models, while exhibiting smaller relative performance drops when transferring to new hospitals. We study the variation in performance across prompt design, with structured prompts being crucial to reducing the variance of the predictive models without altering mean accuracy. We find that using these portable representations improves few-shot learning and does not increase demographic recoverability of age or sex relative to baselines, suggesting little additional privacy risk. Our work points to the potential that LLMs hold as tools to enable the scalable deployment of production grade predictive models by reducing the engineering overhead.
- Abstract(参考訳): 臨床MLの展開は遅くて不安定で、ある病院で働くモデルは、次の病院での配布シフトで劣化することが多い。
本研究では,ある病院に構築された下流の予測器を,最小限のトレーニングと微調整で他の病院で使用できるようにすることで,患者を移植可能な言語モデル(LLM)を作成することができるか,という簡単な疑問を考察する。
そこで我々は,不規則なICU時系列から凍結LDMを用いて簡潔な自然言語要約にマッピングし,各要約を凍結テキスト埋め込みモデルに埋め込み,様々な下流予測器への入力として機能する固定長ベクトルを得る。
3つのコホート (MIMIC-IV, HIRID, PPICU) を複数臨床基盤とした予測・分類作業において, 提案手法は単純で, 使いやすく, グリッド計算, 自己教師付き表現学習, 時系列基礎モデルと競合し, 新規病院への転院時の相対的成績低下が小さい。
本研究では,予測モデルのばらつきを平均精度を変化させることなく低減するためには,構造的プロンプトが不可欠である,即時設計における性能の変動について検討する。
これらのポータブルな表現を使用することで、数ショットの学習が向上し、ベースラインに対する年齢や性別の人口的回復率が向上しないことがわかり、プライバシーリスクが少なくなることが示唆された。
我々の研究は、LLMがエンジニアリングのオーバーヘッドを減らし、プロダクショングレードの予測モデルのスケーラブルなデプロイを可能にするツールとして持つ可能性を示している。
関連論文リスト
- PaReGTA: An LLM-based EHR Data Encoding Approach to Capture Temporal Information [4.768886949096516]
PaReGTAは、縦方向のEHRイベントを、明示的な時間的手がかりを持つ訪問レベルのテンプレートテキストに変換する。
文埋め込みモデルの軽量なコントラスト微調整により、ドメイン適応型の訪問埋め込みを学習する。
ハイブリッド時間プールを用いた固定次元患者表現への訪問埋め込みを集約する。
論文 参考訳(メタデータ) (2026-02-23T10:09:50Z) - Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction [44.23284500920266]
このベンチマークは、2つの異なる臨床環境におけるデータキュレーションと評価を標準化する。
実験によると、イベントストリームモデルは、常に最強のパフォーマンスを提供する。
特徴選択戦略は臨床環境に適応する必要がある。
論文 参考訳(メタデータ) (2025-10-10T09:03:47Z) - AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Time Associated Meta Learning for Clinical Prediction [78.99422473394029]
本稿では,時間関連メタラーニング(TAML)手法を提案する。
タスク分割後のスパーシリティ問題に対処するため、TAMLは時間情報共有戦略を採用し、正のサンプル数を増やす。
複数の臨床データセットに対するTAMLの有効性を示す。
論文 参考訳(メタデータ) (2023-03-05T03:54:54Z) - CHiLL: Zero-shot Custom Interpretable Feature Extraction from Clinical
Notes with Large Language Models [24.048687797399637]
CHiLLは、専門家が作成したクエリでLLMにプロンプトして、ヘルスレコードから解釈可能な機能を生成する。
結果として生じる雑音ラベルは、単純な線形分類器を訓練するために使用される。
自動抽出された特徴を用いた線形モデルは参照特徴を用いたモデルと互換性があり、"Bag-of-Words"特徴を用いた線形モデルよりも高い解釈性が得られることがわかった。
論文 参考訳(メタデータ) (2023-02-23T21:23:06Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。