論文の概要: A method for comparing multiple imputation techniques: a case study on
the U.S. National COVID Cohort Collaborative
- arxiv url: http://arxiv.org/abs/2206.06444v2
- Date: Sun, 25 Sep 2022 04:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 17:45:07.425771
- Title: A method for comparing multiple imputation techniques: a case study on
the U.S. National COVID Cohort Collaborative
- Title(参考訳): 複数の計算手法を比較する方法--米国国立コロナウイルス共同研究を事例として
- Authors: Elena Casiraghi, Rachel Wong, Margaret Hall, Ben Coleman, Marco
Notaro, Michael D. Evans, Jena S. Tronieri, Hannah Blau, Bryan Laraway,
Tiffany J. Callahan, Lauren E. Chan, Carolyn T. Bramante, John B. Buse,
Richard A. Moffitt, Til Sturmer, Steven G. Johnson, Yu Raymond Shao, Justin
Reese, Peter N. Robinson, Alberto Paccanaro, Giorgio Valentini, Jared D.
Huling and Kenneth Wilkins (on behalf of the N3C Consortium): Tell Bennet,
Christopher Chute, Peter DeWitt, Kenneth Gersing, Andrew Girvin, Melissa
Haendel, Jeremy Harper, Janos Hajagos, Stephanie Hong, Emily Pfaff, Jane
Reusch, Corneliu Antoniescu, Kimberly Robaski
- Abstract要約: 統計的解析の文脈において、欠落データを扱うための戦略を数値的に評価する。
このアプローチは、最も有効でパフォーマンスの低いデータハンドリング戦略を効果的に強調することができる。
- 参考スコア(独自算出の注目度): 1.259457977936316
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Healthcare datasets obtained from Electronic Health Records have proven to be
extremely useful to assess associations between patients' predictors and
outcomes of interest. However, these datasets often suffer from missing values
in a high proportion of cases and the simple removal of these cases may
introduce severe bias. For these reasons, several multiple imputation
algorithms have been proposed to attempt to recover the missing information.
Each algorithm presents strengths and weaknesses, and there is currently no
consensus on which multiple imputation algorithms works best in a given
scenario. Furthermore, the selection of each algorithm parameters and
data-related modelling choices are also both crucial and challenging. In this
paper, we propose a novel framework to numerically evaluate strategies for
handling missing data in the context of statistical analysis, with a particular
focus on multiple imputation techniques. We demonstrate the feasibility of our
approach on a large cohort of type-2 diabetes patients provided by the National
COVID Cohort Collaborative (N3C) Enclave, where we explored the influence of
various patient characteristics on outcomes related to COVID-19. Our analysis
included classic multiple imputation techniques as well as simple complete-case
Inverse Probability Weighted models. The experiments presented here show that
our approach could effectively highlight the most valid and performant
missing-data handling strategy for our case study. Moreover, our methodology
allowed us to gain an understanding of the behavior of the different models and
of how it changed as we modified their parameters. Our method is general and
can be applied to different research fields and on datasets containing
heterogeneous types.
- Abstract(参考訳): 電子健康記録から得られた医療データセットは、患者の予測要因と興味のある結果の関連性を評価するのに非常に有用であることが証明されている。
しかし、これらのデータセットは高い割合で欠落した値に悩まされることが多く、これらのケースの単純な除去は深刻なバイアスをもたらす可能性がある。
これらの理由から、欠落した情報を復元しようとする複数のインプテーションアルゴリズムが提案されている。
それぞれのアルゴリズムは強みと弱みを示し、現在、与えられたシナリオにおいてどの複数のインプテーションアルゴリズムが最適かについてのコンセンサスはない。
さらに、各アルゴリズムパラメータの選択とデータ関連モデリングの選択も重要かつ困難である。
本稿では, 統計的解析の文脈において, 欠落データを扱うための戦略を数値的に評価する新しい枠組みを提案する。
N3C(National COVID Cohort Collaborative)エンクレーブ(National COVID Cohort Collaborative, N3C)が提供した2型糖尿病患者の大規模なコホートに対するアプローチの有効性について検討した。
解析には古典的多重計算手法と単純な逆確率重み付きモデルが含まれていた。
この実験から,本手法はケーススタディにおいて,最も有効かつ有効な欠データ処理戦略を効果的に強調できることが示唆された。
さらに,提案手法により,異なるモデルの動作や,パラメータの変更に伴ってどのように変化したかを理解することができた。
本手法は汎用的であり,異なる研究分野や異種型を含むデータセットに適用可能である。
関連論文リスト
- Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Counterfactual Data Augmentation with Contrastive Learning [27.28511396131235]
本稿では,選択したサブセットに対して,結果に反する結果をもたらすモデルに依存しないデータ拡張手法を提案する。
我々は、比較学習を用いて表現空間と類似度尺度を学習し、学習された類似度尺度で同定された個人に近い学習空間において、同様の潜在的な結果が得られるようにした。
この性質は、代替治療群から近接した近縁者に対する対実的な結果の信頼性の高い計算を保証する。
論文 参考訳(メタデータ) (2023-11-07T00:36:51Z) - Multi-objective optimization determines when, which and how to fuse deep
networks: an application to predict COVID-19 outcomes [1.8351254916713304]
マルチモーダル・エンド・ツー・エンドモデルのセットアップを最適化する新しい手法を提案する。
我々はAIforCOVIDデータセット上でテストを行い、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-04-07T23:07:33Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Explaining medical AI performance disparities across sites with
confounder Shapley value analysis [8.785345834486057]
マルチサイト評価は、このような格差を診断する鍵となる。
本フレームワークは,各種類のバイアスが全体の性能差に与える影響を定量化する手法を提供する。
本研究は, 深部学習モデルを用いて気胸の有無を検知し, その有用性を実証するものである。
論文 参考訳(メタデータ) (2021-11-12T18:54:10Z) - Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing
Imputation Perspective [5.64530854079352]
マルチモーダルデータの連成分布をモデル化することで、欠落データの計算に対処する。
本稿では, PBiGAN を用いた新しい条件付き PBiGAN (C-PBiGAN) 法を提案する。
C-PBiGANは, 肺がんのリスク評価において, 代表的計算法と比較して有意に改善した。
論文 参考訳(メタデータ) (2021-07-25T20:15:16Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Mixture Model Framework for Traumatic Brain Injury Prognosis Using
Heterogeneous Clinical and Outcome Data [3.7363119896212478]
TBIに関連する大きな異種データ型をモデル化する手法を開発する。
このモデルは、人口統計、血液ベースのバイオマーカー、画像検出など、さまざまなデータタイプを含むデータセットでトレーニングされます。
教師なしの学習環境で患者を別々のグループに成層するために使用されます。
論文 参考訳(メタデータ) (2020-12-22T19:31:03Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。