論文の概要: FeatEHR-LLM: Leveraging Large Language Models for Feature Engineering in Electronic Health Records
- arxiv url: http://arxiv.org/abs/2604.22534v1
- Date: Fri, 24 Apr 2026 13:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.467577
- Title: FeatEHR-LLM: Leveraging Large Language Models for Feature Engineering in Electronic Health Records
- Title(参考訳): FeatEHR-LLM:電子健康記録における機能工学のための大規模言語モデルの活用
- Authors: Hojjat Karami, David Atienza, Jean-Philippe Thiran, Anisoara Ionescu,
- Abstract要約: FeatEHR-LLMは、不規則にサンプリングされたEHR時系列から有意義な特徴を生成するフレームワークである。
生の患者記録ではなく、データセットスキーマとタスク記述のみで動作する。
8つのタスクのうち7つのタスクでAUROCの平均値が最も高く、強いベースラインよりも最大6ポイント向上している。
- 参考スコア(独自算出の注目度): 12.958792839639605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature engineering for Electronic Health Records (EHR) is complicated by irregular observation intervals, variable measurement frequencies, and structural sparsity inherent to clinical time series. Existing automated methods either lack clinical domain awareness or assume clean, regularly sampled inputs, limiting their applicability to real-world EHR data. We present \textbf{FeatEHR-LLM}, a framework that leverages Large Language Models (LLMs) to generate clinically meaningful tabular features from irregularly sampled EHR time series. To limit patient privacy exposure, the LLM operates exclusively on dataset schemas and task descriptions rather than raw patient records. A tool-augmented generation mechanism equips the LLM with specialized routines for querying irregular temporal data, enabling it to produce executable feature-extraction code that explicitly handles uneven observation patterns and informative sparsity. FeatEHR-LLM supports both univariate and multivariate feature generation through an iterative, validation-in-the-loop pipeline. Evaluated on eight clinical prediction tasks across four ICU datasets, our framework achieves the highest mean AUROC on 7 out of 8 tasks, with improvements of up to 6 percentage points over strong baselines. Code is available at github.com/hojjatkarami/FeatEHR-LLM.
- Abstract(参考訳): エレクトロニック・ヘルス・レコード(EHR)の特徴工学は、不規則な観察間隔、変動測定周波数、臨床時系列に固有の構造的疎結合によって複雑である。
既存の自動化手法は、臨床領域の認識を欠いているか、クリーンで定期的なサンプル入力を前提としており、実際のEHRデータに適用性を制限する。
本稿では, 大規模言語モデル(LLM)を活用して, 不規則なサンプルEHR時系列から臨床的に有意な表型特徴を生成するフレームワークである, textbf{FeatEHR-LLM}を提案する。
患者のプライバシの露出を制限するため、LLMは、生の患者の記録ではなく、データセットスキーマとタスク記述のみを運用している。
ツール拡張生成機構は、不規則な時間データをクエリするための特別なルーチンをLLMに装備し、不均一な観測パターンと情報空間を明示的に処理する実行可能な特徴抽出コードを生成する。
FeatEHR-LLMは、繰り返しバリデーション・イン・ザ・ループパイプラインを通じて、単変量と多変量の両方の機能生成をサポートする。
4つのICUデータセットにまたがる8つの臨床予測タスクを評価したところ、我々のフレームワークは8つのタスクのうち7つのタスクのうち7つの平均AUROCを達成し、強いベースラインよりも最大6ポイント改善した。
コードはgithub.com/hojjatkarami/FeatEHR-LLMで入手できる。
関連論文リスト
- RePrompT: Recurrent Prompt Tuning for Integrating Structured EHR Encoders with Large Language Models [12.004161606345084]
本稿では,構造化EHRエンコーダを即時チューニングにより統合する時間認識フレームワークRePrompTを紹介する。
MIMIC-IIIとMIMIC-IVの実験では、RePrompTはEHRベースのベースラインとLLMベースのベースラインの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-20T02:20:13Z) - Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction [44.23284500920266]
このベンチマークは、2つの異なる臨床環境におけるデータキュレーションと評価を標準化する。
実験によると、イベントストリームモデルは、常に最強のパフォーマンスを提供する。
特徴選択戦略は臨床環境に適応する必要がある。
論文 参考訳(メタデータ) (2025-10-10T09:03:47Z) - Mind the Missing: Variable-Aware Representation Learning for Irregular EHR Time Series using Large Language Models [0.6554326244334866]
VITAL(VITAL)は、不規則にサンプリングされた生理的時系列から学習するのに適した可変対応大規模言語モデル(LLM)ベースのフレームワークである。
言語空間に重要な記号をリプログラミングし、LLMが時間的文脈を捉え、欠落した値に対する推論を可能にする。
高レベルの欠如の下では堅牢なパフォーマンスを維持しており、これは実際の臨床シナリオでよく見られる。
論文 参考訳(メタデータ) (2025-09-26T09:44:16Z) - Integrating Text and Time-Series into (Large) Language Models to Predict Medical Outcomes [0.6545884355643076]
大規模言語モデル(LLM)はテキスト生成時に優れるが、時系列などの構造化データを含む臨床分類タスクを処理できる能力はいまだ未定である。
そこで本研究では,DSPyをベースとしたプロンプト最適化を用いて命令調整LDMを適応させ,臨床ノートと構造化ERH入力を共同で処理する。
論文 参考訳(メタデータ) (2025-09-17T05:02:14Z) - GENIE: Generative Note Information Extraction model for structuring EHR data [14.057531175321113]
生成ノート情報抽出システムGENIEを紹介する。
GENIEは1つのパスで全段落を処理し、エンティティ、アサーションステータス、ロケーション、修飾子、値、目的を高精度に抽出する。
堅牢なデータ準備パイプラインと微調整された小型LLMを使用して、GENIEは複数の情報抽出タスク間での競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T15:42:24Z) - HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。
胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。
特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文 参考訳(メタデータ) (2024-12-15T06:04:16Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Time Associated Meta Learning for Clinical Prediction [78.99422473394029]
本稿では,時間関連メタラーニング(TAML)手法を提案する。
タスク分割後のスパーシリティ問題に対処するため、TAMLは時間情報共有戦略を採用し、正のサンプル数を増やす。
複数の臨床データセットに対するTAMLの有効性を示す。
論文 参考訳(メタデータ) (2023-03-05T03:54:54Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。