論文の概要: Ensuring Reliability of Curated EHR-Derived Data: The Validation of Accuracy for LLM/ML-Extracted Information and Data (VALID) Framework
- arxiv url: http://arxiv.org/abs/2506.08231v1
- Date: Mon, 09 Jun 2025 20:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.760686
- Title: Ensuring Reliability of Curated EHR-Derived Data: The Validation of Accuracy for LLM/ML-Extracted Information and Data (VALID) Framework
- Title(参考訳): キュレートEHR-Derivedデータの信頼性の確保:LLM/ML-Extracted Information and Data (VALID) フレームワークの精度検証
- Authors: Melissa Estevez, Nisha Singh, Lauren Dyson, Blythe Adamson, Qianyu Yuan, Megan W. Hildner, Erin Fidyk, Olive Mbah, Farhad Khan, Kathi Seidl-Rathkopf, Aaron B. Cohen,
- Abstract要約: 大規模言語モデル(LLM)により抽出された臨床データの質を評価するための包括的枠組みを提案する。
このフレームワークは、専門家による抽象化に対する変数レベルのパフォーマンスベンチマーク、内部の一貫性と妥当性の自動検証、レプリケーション分析を統合している。
この多次元アプローチは、改善が必要な変数の同定、潜時エラーの体系的検出、および実世界の研究におけるデータセットの適合性確認を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly used to extract clinical data from electronic health records (EHRs), offering significant improvements in scalability and efficiency for real-world data (RWD) curation in oncology. However, the adoption of LLMs introduces new challenges in ensuring the reliability, accuracy, and fairness of extracted data, which are essential for research, regulatory, and clinical applications. Existing quality assurance frameworks for RWD and artificial intelligence do not fully address the unique error modes and complexities associated with LLM-extracted data. In this paper, we propose a comprehensive framework for evaluating the quality of clinical data extracted by LLMs. The framework integrates variable-level performance benchmarking against expert human abstraction, automated verification checks for internal consistency and plausibility, and replication analyses comparing LLM-extracted data to human-abstracted datasets or external standards. This multidimensional approach enables the identification of variables most in need of improvement, systematic detection of latent errors, and confirmation of dataset fitness-for-purpose in real-world research. Additionally, the framework supports bias assessment by stratifying metrics across demographic subgroups. By providing a rigorous and transparent method for assessing LLM-extracted RWD, this framework advances industry standards and supports the trustworthy use of AI-powered evidence generation in oncology research and practice.
- Abstract(参考訳): 大規模言語モデル(LLM)は電子健康記録(EHR)から臨床データを抽出するためにますます使われており、腫瘍学における実世界データ(RWD)キュレーションのスケーラビリティと効率を大幅に改善する。
しかし, LLMの導入は, 研究, 規制, 臨床応用に不可欠な抽出データの信頼性, 正確性, 公平性の確保に新たな課題をもたらす。
既存のRWDおよび人工知能の品質保証フレームワークは、LLM抽出データに関連するユニークなエラーモードや複雑さに完全に対処していない。
本稿では,LSMが抽出した臨床データの質を評価するための包括的枠組みを提案する。
このフレームワークは、専門家による抽象化に対する変数レベルのパフォーマンスベンチマーク、内部の一貫性と妥当性の自動検証、LLMが抽出したデータを人為的に抽出したデータセットや外部標準と比較するレプリケーション分析を統合している。
この多次元アプローチは、改善が必要な変数の同定、潜時エラーの体系的検出、および実世界の研究におけるデータセットの適合性確認を可能にする。
さらに、このフレームワークは人口統計サブグループ間でメトリクスを階層化することでバイアスアセスメントをサポートする。
LLM抽出されたRWDを評価するための厳密で透明な方法を提供することにより、このフレームワークは業界標準を進歩させ、オンコロジー研究や実践におけるAIによるエビデンス生成の信頼できる利用を支援する。
関連論文リスト
- Bridging the Generalisation Gap: Synthetic Data Generation for Multi-Site Clinical Model Validation [0.3362278589492841]
既存のモデル評価アプローチは、可用性に制限のある実世界のデータセットに頼っていることが多い。
本稿では, ベンチマークモデル, 公正性, 一般化性の制御されたロバスト性を考慮した, 構造化された合成データフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-29T11:04:28Z) - Attention-Based Synthetic Data Generation for Calibration-Enhanced Survival Analysis: A Case Study for Chronic Kidney Disease Using Electronic Health Records [1.7769033811751995]
Masked Clinical Modelling (MCM)は、高忠実度合成データセットを生成するための注目ベースのフレームワークである。
MCMは、サバイバルモデル校正を強化しながら、ハザード比などの重要な臨床的洞察を保っている。
論文 参考訳(メタデータ) (2025-03-08T06:58:33Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Representation Learning of Lab Values via Masked AutoEncoder [2.785172582119726]
逐次的な実験値の計算のためのトランスフォーマーベースのマスク付きオートエンコーダフレームワークであるLab-MAEを提案する。
MIMIC-IVデータセットの実験的評価は、Lab-MAEが最先端のベースラインを大幅に上回っていることを示している。
Lab-MAEは、患者の人口集団間で同等のパフォーマンスを達成し、臨床予測において公平性を向上させる。
論文 参考訳(メタデータ) (2025-01-05T20:26:49Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Improving Clinical Decision Support through Interpretable Machine Learning and Error Handling in Electronic Health Records [6.594072648536156]
Trust-MAPSは、臨床領域の知識を高次元の混合整数プログラミングモデルに変換する。
信頼スコアは、臨床決定支援タスクの予測性能を高めるだけでなく、MLモデルに解釈可能性を与える臨床的に有意義な特徴として出現する。
論文 参考訳(メタデータ) (2023-08-21T15:14:49Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。