論文の概要: Development and Validation of ML-DQA -- a Machine Learning Data Quality
Assurance Framework for Healthcare
- arxiv url: http://arxiv.org/abs/2208.02670v1
- Date: Thu, 4 Aug 2022 13:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:17:15.242224
- Title: Development and Validation of ML-DQA -- a Machine Learning Data Quality
Assurance Framework for Healthcare
- Title(参考訳): 医療用機械学習データ品質保証フレームワークml-dqaの開発と検証
- Authors: Mark Sendak, Gaurav Sirdeshmukh, Timothy Ochoa, Hayley Premo, Linda
Tang, Kira Niederhoffer, Sarah Reed, Kaivalya Deshpande, Emily Sterrett,
Melissa Bauer, Laurie Snyder, Afreen Shariff, David Whellan, Jeffrey Riggio,
David Gaieski, Kristin Corey, Megan Richards, Michael Gao, Marshall Nichols,
Bradley Heintze, William Knechtle, William Ratliff, Suresh Balu
- Abstract要約: 本研究では,実世界のデータベストプラクティスに基づくデータ品質保証フレームワークであるML-DQAを開発し,検証する。
合計で2,999件の品質チェックと24件の品質レポートがRWDで作成され、5つのプロジェクト全体で247,536人の患者に集められた。
- 参考スコア(独自算出の注目度): 2.1249062423070106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The approaches by which the machine learning and clinical research
communities utilize real world data (RWD), including data captured in the
electronic health record (EHR), vary dramatically. While clinical researchers
cautiously use RWD for clinical investigations, ML for healthcare teams consume
public datasets with minimal scrutiny to develop new algorithms. This study
bridges this gap by developing and validating ML-DQA, a data quality assurance
framework grounded in RWD best practices. The ML-DQA framework is applied to
five ML projects across two geographies, different medical conditions, and
different cohorts. A total of 2,999 quality checks and 24 quality reports were
generated on RWD gathered on 247,536 patients across the five projects. Five
generalizable practices emerge: all projects used a similar method to group
redundant data element representations; all projects used automated utilities
to build diagnosis and medication data elements; all projects used a common
library of rules-based transformations; all projects used a unified approach to
assign data quality checks to data elements; and all projects used a similar
approach to clinical adjudication. An average of 5.8 individuals, including
clinicians, data scientists, and trainees, were involved in implementing ML-DQA
for each project and an average of 23.4 data elements per project were either
transformed or removed in response to ML-DQA. This study demonstrates the
importance role of ML-DQA in healthcare projects and provides teams a framework
to conduct these essential activities.
- Abstract(参考訳): 機械学習と臨床研究コミュニティが、電子健康記録(EHR)に記録されたデータを含む実世界データ(RWD)を利用するアプローチは、劇的に異なる。
臨床研究者は臨床研究にRWDを慎重に用いているが、医療チームのMLは新しいアルゴリズムを開発するために最小限の精査で公開データセットを消費している。
本研究では、RWDベストプラクティスに基づくデータ品質保証フレームワークであるML-DQAを開発し、検証することにより、このギャップを埋める。
ML-DQAフレームワークは、2つの地理的、異なる医療条件、異なるコホートにわたる5つのMLプロジェクトに適用される。
2,999件の品質チェックと24件の品質報告が5つのプロジェクトを通じて24,536人の患者に集められた。
すべてのプロジェクトは、診断と治療データ要素を構築するために、自動化ユーティリティを使用しており、すべてのプロジェクトは、ルールベースの変換の共通ライブラリを使用しており、すべてのプロジェクトは、データ要素にデータ品質チェックを割り当てるために統一されたアプローチを使用しており、全てのプロジェクトは、臨床適応に同様のアプローチを使用していた。
臨床医、データサイエンティスト、研修生を含む平均5.8人が各プロジェクトのためにML-DQAを実装し、平均23.4個のデータ要素がML-DQAに応じて変換または削除された。
本研究は、医療プロジェクトにおけるML-DQAの重要性を示し、これらの重要な活動を行うための枠組みを提供する。
関連論文リスト
- The METRIC-framework for assessing data quality for trustworthy AI in
medicine: a systematic review [0.0]
信頼できるAIの開発は特に医学において重要である。
ディープラーニング(DL)におけるデータ品質(トレーニング/テスト)の重要性に焦点を当てる。
本稿では,医療訓練データのための特化データ品質フレームワークであるMETRICフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-21T09:15:46Z) - Benchmarking Retrieval-Augmented Generation for Medicine [30.390132015614128]
大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。
Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。
我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
論文 参考訳(メタデータ) (2024-02-20T17:44:06Z) - Large Language Models Streamline Automated Machine Learning for Clinical
Studies [2.4889420816783963]
ChatGPT Advanced Data Analysis (ADA)は、機械学習解析を効率的に行うためのGPT-4の拡張である。
ADAは、臨床結果を予測するために、元の研究のトレーニングデータに基づいて、最先端のMLモデルを自律的に開発した。
興味深いことに、ChatGPT ADAで製作されたMLモデルは、しばしばそのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-27T14:28:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Integration of Domain Expert-Centric Ontology Design into the CRISP-DM
for Cyber-Physical Production Systems [63.62764375279861]
機械学習(ML)とデータマイニング(DM)の手法は、収集されたデータから複雑で隠れたパターンを抽出する上で有望であることが証明されている。
しかし、このようなデータ駆動プロジェクトは、通常、CRISPDM(Cross-Industry Standard Process for Data Mining)で実行され、データの理解と準備に要する時間の不均等さのために失敗することが多い。
このコントリビューションは、データサイエンティストがCPPSの課題に対してより迅速かつ確実に洞察を得ることができるように、統合されたアプローチを提供することを目的としている。
論文 参考訳(メタデータ) (2023-07-21T15:04:00Z) - PyTrial: Machine Learning Software and Benchmark for Clinical Trial
Applications [49.69824178329405]
PyTrialは、臨床試験の設計と運用のための一連の機械学習アルゴリズムのベンチマークとオープンソース実装を提供する。
患者結果予測,臨床試験サイト選択,トライアル結果予測,患者と臨床のマッチング,トライアル類似性検索,合成データ生成など,6つのタスクにわたる臨床試験のための34のMLアルゴリズムを網羅的に検討した。
PyTrialは、データローディング、モデル仕様、モデルトレーニング、モデル評価という、単純な4段階のプロセスで各タスクを定義します。
論文 参考訳(メタデータ) (2023-06-06T21:19:03Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - VBridge: Connecting the Dots Between Features, Explanations, and Data
for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。
我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。
症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文 参考訳(メタデータ) (2021-08-04T17:34:13Z) - Machine Learning in Precision Medicine to Preserve Privacy via
Encryption [2.099922236065961]
我々は,がんを予測するMLモデルの構築に使用した,暗号化(MLE)フレームワークを用いた汎用機械学習を提案する。
我々のフレームワークの予測精度は、同じデータセット上で実施された最新の研究よりもわずかに高い。
私たちは、フレームワークの設計と実装、すべてのML実験とコード、そして、無料のクラウドサービスにデプロイされた最終的な予測モデルを含む、オープンソースのリポジトリを提供しています。
論文 参考訳(メタデータ) (2021-02-05T20:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。