論文の概要: Medical Data Pecking: A Context-Aware Approach for Automated Quality Evaluation of Structured Medical Data
- arxiv url: http://arxiv.org/abs/2507.02628v1
- Date: Thu, 03 Jul 2025 13:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.37762
- Title: Medical Data Pecking: A Context-Aware Approach for Automated Quality Evaluation of Structured Medical Data
- Title(参考訳): 医療データ収集:構造化医療データの品質自動評価のための文脈認識アプローチ
- Authors: Irena Girshovitz, Atai Ambus, Moni Shahar, Ran Gilad-Bachrach,
- Abstract要約: EHRデータには、サブポピュレーションやバイアス、体系的なエラーなど、重要な品質上の問題が含まれていることが多い。
既存の品質評価手法は依然として不十分であり、研究のためのデータ適合性を評価する体系的な手順が欠如している。
データ品質の懸念を識別するために,ソフトウェア工学からの単体テストとカバレッジの概念を適用した医療データペッキング手法を提案する。
- 参考スコア(独自算出の注目度): 5.681039620785591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: The use of Electronic Health Records (EHRs) for epidemiological studies and artificial intelligence (AI) training is increasing rapidly. The reliability of the results depends on the accuracy and completeness of EHR data. However, EHR data often contain significant quality issues, including misrepresentations of subpopulations, biases, and systematic errors, as they are primarily collected for clinical and billing purposes. Existing quality assessment methods remain insufficient, lacking systematic procedures to assess data fitness for research. Methods: We present the Medical Data Pecking approach, which adapts unit testing and coverage concepts from software engineering to identify data quality concerns. We demonstrate our approach using the Medical Data Pecking Tool (MDPT), which consists of two main components: (1) an automated test generator that uses large language models and grounding techniques to create a test suite from data and study descriptions, and (2) a data testing framework that executes these tests, reporting potential errors and coverage. Results: We evaluated MDPT on three datasets: All of Us (AoU), MIMIC-III, and SyntheticMass, generating 55-73 tests per cohort across four conditions. These tests correctly identified 20-43 non-aligned or non-conforming data issues. We present a detailed analysis of the LLM-generated test suites in terms of reference grounding and value accuracy. Conclusion: Our approach incorporates external medical knowledge to enable context-sensitive data quality testing as part of the data analysis workflow to improve the validity of its outcomes. Our approach tackles these challenges from a quality assurance perspective, laying the foundation for further development such as additional data modalities and improved grounding methods.
- Abstract(参考訳): 背景:疫学研究や人工知能(AI)トレーニングにおける電子健康記録(EHR)の利用は急速に増加している。
結果の信頼性は、EHRデータの正確性と完全性に依存する。
しかしながら、EHRデータは、主に臨床および請求目的のために収集されるため、サブポピュレーション、バイアス、体系的誤りの誤表現を含む重要な品質問題を含むことが多い。
既存の品質評価手法は依然として不十分であり、研究のためのデータ適合性を評価する体系的な手順が欠如している。
方法: ソフトウェア工学からの単体テストとカバレッジの概念を適用して,データ品質の懸念を識別する医療データペッキング手法を提案する。
1)大規模言語モデルと接地技術を用いてデータと研究記述からテストスイートを作成する自動テストジェネレータと,(2)これらのテストを実行し,潜在的なエラーやカバレッジを報告するデータテストフレームワークである。
結果: MDPTを全Us(AoU),MIMIC-III,SyntheticMassの3つのデータセットで評価した。
これらのテストでは、20-43の非整合性または非整合性データの問題が正しく特定された。
基準グラウンドと値精度の観点から,LLM生成テストスイートの詳細な解析を行う。
結論:本手法では,データ分析ワークフローの一部として,文脈に敏感なデータ品質テストを可能にするために,外部の医療知識を取り入れ,結果の有効性を向上する。
提案手法は品質保証の観点からこれらの課題に取り組み,新たなデータモダリティや基盤法の改善など,さらなる発展の基盤を築き上げている。
関連論文リスト
- Integrated Analysis for Electronic Health Records with Structured and Sporadic Missingness [11.56234410514708]
本稿では電子健康記録(EHR)に適した新しい計算法を提案する。
これらのギャップに対処することにより、本手法は、分析の統合、データ有用性の向上、および人口健康の理解を促進するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-10T19:59:49Z) - Leveraging Generative AI Through Prompt Engineering and Rigorous Validation to Create Comprehensive Synthetic Datasets for AI Training in Healthcare [0.0]
GPT-4 APIは、この制限を克服するための高品質な合成データセットを生成するために使用された。
得られたデータには、医療提供者の詳細、病院部門、病棟、ベッド割り当て、患者人口統計、緊急連絡先、バイタルサイン、免疫、アレルギー、医療履歴、アポイントメント、病院訪問、検査、診断、治療計画、医療ノート、訪問ログ、退院サマリー、レファラルが含まれていた。
論文 参考訳(メタデータ) (2025-04-29T16:37:34Z) - Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.017827642932746]
データセットに対する一般属性ユーティリティと検出可能性によるバイアステスト(G-AUDIT)は、モダリティに依存しないデータセット監査フレームワークである。
本手法は,患者属性を含むデータ特性とタスクレベルのアノテーションの関係について検討する。
G-AUDITは、従来の定性的手法で見過ごされる微妙な偏見をうまく識別する。
論文 参考訳(メタデータ) (2025-03-13T02:16:48Z) - Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。
本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。
我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文 参考訳(メタデータ) (2025-02-25T10:15:21Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [54.98321887435557]
本稿では, マルチモーダル入力特徴と臨床治験設計における8つの重要な予測課題を網羅した, 精巧にキュレートされた23個のAI対応データセットについて述べる。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。