論文の概要: Development and Validation of ML-DQA -- a Machine Learning Data Quality
Assurance Framework for Healthcare
- arxiv url: http://arxiv.org/abs/2208.02670v1
- Date: Thu, 4 Aug 2022 13:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:17:15.242224
- Title: Development and Validation of ML-DQA -- a Machine Learning Data Quality
Assurance Framework for Healthcare
- Title(参考訳): 医療用機械学習データ品質保証フレームワークml-dqaの開発と検証
- Authors: Mark Sendak, Gaurav Sirdeshmukh, Timothy Ochoa, Hayley Premo, Linda
Tang, Kira Niederhoffer, Sarah Reed, Kaivalya Deshpande, Emily Sterrett,
Melissa Bauer, Laurie Snyder, Afreen Shariff, David Whellan, Jeffrey Riggio,
David Gaieski, Kristin Corey, Megan Richards, Michael Gao, Marshall Nichols,
Bradley Heintze, William Knechtle, William Ratliff, Suresh Balu
- Abstract要約: 本研究では,実世界のデータベストプラクティスに基づくデータ品質保証フレームワークであるML-DQAを開発し,検証する。
合計で2,999件の品質チェックと24件の品質レポートがRWDで作成され、5つのプロジェクト全体で247,536人の患者に集められた。
- 参考スコア(独自算出の注目度): 2.1249062423070106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The approaches by which the machine learning and clinical research
communities utilize real world data (RWD), including data captured in the
electronic health record (EHR), vary dramatically. While clinical researchers
cautiously use RWD for clinical investigations, ML for healthcare teams consume
public datasets with minimal scrutiny to develop new algorithms. This study
bridges this gap by developing and validating ML-DQA, a data quality assurance
framework grounded in RWD best practices. The ML-DQA framework is applied to
five ML projects across two geographies, different medical conditions, and
different cohorts. A total of 2,999 quality checks and 24 quality reports were
generated on RWD gathered on 247,536 patients across the five projects. Five
generalizable practices emerge: all projects used a similar method to group
redundant data element representations; all projects used automated utilities
to build diagnosis and medication data elements; all projects used a common
library of rules-based transformations; all projects used a unified approach to
assign data quality checks to data elements; and all projects used a similar
approach to clinical adjudication. An average of 5.8 individuals, including
clinicians, data scientists, and trainees, were involved in implementing ML-DQA
for each project and an average of 23.4 data elements per project were either
transformed or removed in response to ML-DQA. This study demonstrates the
importance role of ML-DQA in healthcare projects and provides teams a framework
to conduct these essential activities.
- Abstract(参考訳): 機械学習と臨床研究コミュニティが、電子健康記録(EHR)に記録されたデータを含む実世界データ(RWD)を利用するアプローチは、劇的に異なる。
臨床研究者は臨床研究にRWDを慎重に用いているが、医療チームのMLは新しいアルゴリズムを開発するために最小限の精査で公開データセットを消費している。
本研究では、RWDベストプラクティスに基づくデータ品質保証フレームワークであるML-DQAを開発し、検証することにより、このギャップを埋める。
ML-DQAフレームワークは、2つの地理的、異なる医療条件、異なるコホートにわたる5つのMLプロジェクトに適用される。
2,999件の品質チェックと24件の品質報告が5つのプロジェクトを通じて24,536人の患者に集められた。
すべてのプロジェクトは、診断と治療データ要素を構築するために、自動化ユーティリティを使用しており、すべてのプロジェクトは、ルールベースの変換の共通ライブラリを使用しており、すべてのプロジェクトは、データ要素にデータ品質チェックを割り当てるために統一されたアプローチを使用しており、全てのプロジェクトは、臨床適応に同様のアプローチを使用していた。
臨床医、データサイエンティスト、研修生を含む平均5.8人が各プロジェクトのためにML-DQAを実装し、平均23.4個のデータ要素がML-DQAに応じて変換または削除された。
本研究は、医療プロジェクトにおけるML-DQAの重要性を示し、これらの重要な活動を行うための枠組みを提供する。
関連論文リスト
- Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.01429184037945]
自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。
我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文 参考訳(メタデータ) (2024-11-20T09:59:12Z) - Can Large Language Models Replace Data Scientists in Clinical Research? [28.211990967264818]
我々は293個の実世界のデータサイエンスコーディングタスクからなるデータセットを開発する。
このデータセットは患者データを用いて現実的な臨床研究シナリオをシミュレートする。
我々は、医療専門家のためのデータサイエンスワークフローに、大きな言語モデルを統合するプラットフォームを開発する。
論文 参考訳(メタデータ) (2024-10-28T22:48:06Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - Large Language Models Streamline Automated Machine Learning for Clinical
Studies [2.4889420816783963]
ChatGPT Advanced Data Analysis (ADA)は、機械学習解析を効率的に行うためのGPT-4の拡張である。
ADAは、臨床結果を予測するために、元の研究のトレーニングデータに基づいて、最先端のMLモデルを自律的に開発した。
興味深いことに、ChatGPT ADAで製作されたMLモデルは、しばしばそのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-27T14:28:38Z) - PyTrial: Machine Learning Software and Benchmark for Clinical Trial
Applications [49.69824178329405]
PyTrialは、臨床試験の設計と運用のための一連の機械学習アルゴリズムのベンチマークとオープンソース実装を提供する。
患者結果予測,臨床試験サイト選択,トライアル結果予測,患者と臨床のマッチング,トライアル類似性検索,合成データ生成など,6つのタスクにわたる臨床試験のための34のMLアルゴリズムを網羅的に検討した。
PyTrialは、データローディング、モデル仕様、モデルトレーニング、モデル評価という、単純な4段階のプロセスで各タスクを定義します。
論文 参考訳(メタデータ) (2023-06-06T21:19:03Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - VBridge: Connecting the Dots Between Features, Explanations, and Data
for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。
我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。
症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文 参考訳(メタデータ) (2021-08-04T17:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。