論文の概要: Model-assisted cohort selection with bias analysis for generating
large-scale cohorts from the EHR for oncology research
- arxiv url: http://arxiv.org/abs/2001.09765v1
- Date: Mon, 13 Jan 2020 22:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 00:01:25.604856
- Title: Model-assisted cohort selection with bias analysis for generating
large-scale cohorts from the EHR for oncology research
- Title(参考訳): EHRからの大規模コホート生成のためのバイアス分析を用いたモデル支援コホート選択
- Authors: Benjamin Birnbaum, Nathan Nussbaum, Katharina Seidl-Rathkopf, Monica
Agrawal, Melissa Estevez, Evan Estola, Joshua Haimson, Lucy He, Peter Larson,
Paul Richardson
- Abstract要約: バイアス分析を用いたモデル支援コホート選択(MACS)手法を提案する。
項周波数逆文書周波数(TF-IDF)とロジスティック回帰を用いて17,263例のモデルを訓練した。
我々は17,292人の患者を対象に,アルゴリズムの性能を測定し,バイアス分析を行った。
- 参考スコア(独自算出の注目度): 1.25957368859589
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Objective Electronic health records (EHRs) are a promising source of data for
health outcomes research in oncology. A challenge in using EHR data is that
selecting cohorts of patients often requires information in unstructured parts
of the record. Machine learning has been used to address this, but even
high-performing algorithms may select patients in a non-random manner and bias
the resulting cohort. To improve the efficiency of cohort selection while
measuring potential bias, we introduce a technique called Model-Assisted Cohort
Selection (MACS) with Bias Analysis and apply it to the selection of metastatic
breast cancer (mBC) patients. Materials and Methods We trained a model on
17,263 patients using term-frequency inverse-document-frequency (TF-IDF) and
logistic regression. We used a test set of 17,292 patients to measure algorithm
performance and perform Bias Analysis. We compared the cohort generated by MACS
to the cohort that would have been generated without MACS as reference
standard, first by comparing distributions of an extensive set of clinical and
demographic variables and then by comparing the results of two analyses
addressing existing example research questions. Results Our algorithm had an
area under the curve (AUC) of 0.976, a sensitivity of 96.0%, and an abstraction
efficiency gain of 77.9%. During Bias Analysis, we found no large differences
in baseline characteristics and no differences in the example analyses.
Conclusion MACS with bias analysis can significantly improve the efficiency of
cohort selection on EHR data while instilling confidence that outcomes research
performed on the resulting cohort will not be biased.
- Abstract(参考訳): Objective Electronic Health Record (EHRs) は、腫瘍学における健康結果研究のための有望なデータ源である。
ehrデータを使用する際の課題は、患者のコホートを選択する場合、記録の非構造化部分の情報を必要とすることが多いことである。
機械学習はこの問題に対処するために使われてきたが、ハイパフォーマンスなアルゴリズムでさえ、非ランダムな方法で患者を選択し、結果のコホートをバイアスする可能性がある。
潜在的なバイアスを計測しながらコホート選択の効率を向上させるために,モデル支援コホート選択(macs)と呼ばれるバイアス分析技術を導入し,転移性乳癌(mbc)患者の選択に適用する。
材料と方法 用語周波数逆文書周波数(TF-IDF)とロジスティック回帰を用いた17,263例のモデルを構築した。
我々は17,292人の患者を対象に,アルゴリズムの性能を測定し,バイアス分析を行った。
まず,macが生成したコホートと,macを基準として生成するコホートを比較し,臨床変数と人口動態変数の分布を比較した上で,既存の研究課題に対する2つの分析結果を比較した。
結果,本アルゴリズムは,曲線(auc)下の面積0.976,感度96.0%,抽象化効率向上率77.9%であった。
バイアス分析では,ベースライン特性に大きな差はなく,サンプル分析にも差はみられなかった。
バイアス分析による結論MACSは、結果のコホートに対して行われた結果がバイアスを受けないという自信を抱きながら、EHRデータに対するコホート選択の効率を著しく向上させることができる。
関連論文リスト
- Equitable Length of Stay Prediction for Patients with Learning Disabilities and Multiple Long-term Conditions Using Machine Learning [1.0064817439176887]
本研究は,学習障害患者9,618例の入院状況とウェールズの人口の長期的状況について分析した。
調査コホートでは, 人口動態, 長期経過状況, 薬剤歴, 病院訪問, 生活史について検討した。
我々は,このコホートにおける入院期間を予測するために,機械学習モデルを適用した。
論文 参考訳(メタデータ) (2024-11-03T20:14:20Z) - Optimizing Mortality Prediction for ICU Heart Failure Patients: Leveraging XGBoost and Advanced Machine Learning with the MIMIC-III Database [1.5186937600119894]
心臓不全は世界中の何百万人もの人々に影響を与え、生活の質を著しく低下させ、高い死亡率をもたらす。
広範な研究にもかかわらず、ICU患者の心不全と死亡率の関係は、完全には理解されていない。
本研究は、ICD-9コードを用いて、MIMIC-IIIデータベースから18歳以上の1,177人のデータを解析した。
論文 参考訳(メタデータ) (2024-09-03T07:57:08Z) - Application of Machine Learning Algorithms in Classifying Postoperative Success in Metabolic Bariatric Surgery: A Comprehensive Study [0.32985979395737786]
本研究は, メタボリック・バリウム手術の文脈において, 患者を分類するための新しい機械学習手法を提案する。
GaussianNB、ComplementNB、KNN、Decision Tree、RandomOverSamplerのKNN、SMOTEのKNNなど、さまざまな機械学習モデルを73人のデータセットに適用した。
論文 参考訳(メタデータ) (2024-03-29T11:27:37Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - A method for comparing multiple imputation techniques: a case study on
the U.S. National COVID Cohort Collaborative [1.259457977936316]
統計的解析の文脈において、欠落データを扱うための戦略を数値的に評価する。
このアプローチは、最も有効でパフォーマンスの低いデータハンドリング戦略を効果的に強調することができる。
論文 参考訳(メタデータ) (2022-06-13T19:49:54Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。