論文の概要: High-dimensional multiple imputation (HDMI) for partially observed confounders including natural language processing-derived auxiliary covariates
- arxiv url: http://arxiv.org/abs/2405.10925v1
- Date: Fri, 17 May 2024 17:24:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 15:24:17.350573
- Title: High-dimensional multiple imputation (HDMI) for partially observed confounders including natural language processing-derived auxiliary covariates
- Title(参考訳): 自然言語処理による補助的共変体を含む部分観察された共同設立者のための高次元多重計算(HDMI)
- Authors: Janick Weberpals, Pamela A. Shaw, Kueiyu Joshua Lin, Richard Wyss, Joseph M Plasek, Li Zhou, Kerry Ngan, Thomas DeRamus, Sudha R. Raman, Bradley G. Hammill, Hana Lee, Sengwee Toh, John G. Connolly, Kimberly J. Dandreo, Fang Tian, Wei Liu, Jie Li, José J. Hernández-Muñoz, Sebastian Schneeweiss, Rishi J. Desai,
- Abstract要約: 多重計算(MI)モデルは、高次元データに補助共変数(AC)を含めることで改善することができる。
我々は,構造化自然言語処理(NLP)を応用したHDMI法を,部分的に観察された共同設立者を用いた研究で開発・比較した。
- 参考スコア(独自算出の注目度): 8.604727800281012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple imputation (MI) models can be improved by including auxiliary covariates (AC), but their performance in high-dimensional data is not well understood. We aimed to develop and compare high-dimensional MI (HDMI) approaches using structured and natural language processing (NLP)-derived AC in studies with partially observed confounders. We conducted a plasmode simulation study using data from opioid vs. non-steroidal anti-inflammatory drug (NSAID) initiators (X) with observed serum creatinine labs (Z2) and time-to-acute kidney injury as outcome. We simulated 100 cohorts with a null treatment effect, including X, Z2, atrial fibrillation (U), and 13 other investigator-derived confounders (Z1) in the outcome generation. We then imposed missingness (MZ2) on 50% of Z2 measurements as a function of Z2 and U and created different HDMI candidate AC using structured and NLP-derived features. We mimicked scenarios where U was unobserved by omitting it from all AC candidate sets. Using LASSO, we data-adaptively selected HDMI covariates associated with Z2 and MZ2 for MI, and with U to include in propensity score models. The treatment effect was estimated following propensity score matching in MI datasets and we benchmarked HDMI approaches against a baseline imputation and complete case analysis with Z1 only. HDMI using claims data showed the lowest bias (0.072). Combining claims and sentence embeddings led to an improvement in the efficiency displaying the lowest root-mean-squared-error (0.173) and coverage (94%). NLP-derived AC alone did not perform better than baseline MI. HDMI approaches may decrease bias in studies with partially observed confounders where missingness depends on unobserved factors.
- Abstract(参考訳): 補助共変量(AC)を含めることで、多重計算(MI)モデルを改善することができるが、高次元データにおけるそれらの性能はよく理解されていない。
我々は,構造化自然言語処理(NLP)を用いた高次元MI(HDMI)手法を,部分的に観察された共同設立者との研究で開発・比較することを目的とした。
オピオイドと非ステロイド性抗炎症薬(NSAID)開始剤(X)と血清クレアチニン(Z2)と経時的腎傷害を併用したプラスミドシミュレーションを行った。
結果,X,Z2,心房細動(U),その他13名の共同設立者(Z1)を含む100頭のコホートを無効治療効果で模擬した。
その後,Z2とUの関数としてのZ2測定の50%にMZ2の欠如を課し,構造的特徴およびNLP特徴を用いたHDMI候補ACを作成した。
我々は、Uが観測されていないシナリオを、すべてのAC候補集合から除外して模倣した。
LASSOを用いて,MI用Z2,MZ2,U用Uに関連するHDMI共変体をデータ適応的に選択した。
治療効果はMIデータセットの適合性スコアマッチングに基づいて推定され,Z1のみを用いたベースライン計算と完全ケース解析に対してHDMIアプローチをベンチマークした。
クレームデータを用いたHDMIが最も低いバイアス(0.072)を示した。
クレームと文の埋め込みを組み合わせることで、ルート平均二乗エラー(0.173)とカバレッジ(94%)の効率が改善された。
NLP由来のAC単独では基線MIよりも優れた性能は得られなかった。
HDMIアプローチは、部分的に観察された共同設立者による研究のバイアスを減少させる可能性がある。
関連論文リスト
- SMILE-UHURA Challenge -- Small Vessel Segmentation at Mesoscopic Scale from Ultra-High Resolution 7T Magnetic Resonance Angiograms [60.35639972035727]
公開されている注釈付きデータセットの欠如は、堅牢で機械学習駆動のセグメンテーションアルゴリズムの開発を妨げている。
SMILE-UHURAチャレンジは、7T MRIで取得したTime-of-Flightアンジオグラフィーの注釈付きデータセットを提供することで、公開されている注釈付きデータセットのギャップに対処する。
Diceスコアは、それぞれのデータセットで0.838 $pm$0.066と0.716 $pm$ 0.125まで到達し、平均パフォーマンスは0.804 $pm$ 0.15までになった。
論文 参考訳(メタデータ) (2024-11-14T17:06:00Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - FS-Net: Full Scale Network and Adaptive Threshold for Improving
Extraction of Micro-Retinal Vessel Structures [4.776514178760067]
本稿では,エンコーダ・デコーダニューラルネットワークアーキテクチャに基づく大規模マイクロ容器抽出機構を提案する。
提案手法はDRIVE,CHASE-DB1,STAREデータセットを用いて評価されている。
論文 参考訳(メタデータ) (2023-11-14T10:32:17Z) - Unmasking the Chameleons: A Benchmark for Out-of-Distribution Detection
in Medical Tabular Data [1.161962828740753]
我々は,近距離OODと遠距離OODを含む一連のテストに対して,異なる手法を比較するベンチマークを提案する。
以上の結果から,この問題は遠方のOODでは解決されるが,近方のOODでは未解決であることが明らかとなった。
トランスフォーマーアーキテクチャは、ResNetやResNetと比べてはるかに信頼性が低い。
論文 参考訳(メタデータ) (2023-09-28T07:52:01Z) - Density-Aware Personalized Training for Risk Prediction in Imbalanced
Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。
この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。
実世界の医療データセットにおけるモデルの性能向上を実証する。
論文 参考訳(メタデータ) (2022-07-23T00:39:53Z) - Robust Hierarchical Patterns for identifying MDD patients: A Multisite
Study [3.4561220135252264]
大うつ病(MDD)のバイオマーカーとしての階層的スパース接続パターン(h SCP)について検討する。
我々は、静止状態fMRIデータから抽出した機能的接続行列からMDD患者を予測するためのh SCPに基づく新しいモデルを提案する。
本研究の結果は,多様性が予測性能に与える影響を示し,多様性を低減し,コンポーネントの予測・一般化能力を向上させることができる。
論文 参考訳(メタデータ) (2022-02-22T19:40:32Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing
Imputation Perspective [5.64530854079352]
マルチモーダルデータの連成分布をモデル化することで、欠落データの計算に対処する。
本稿では, PBiGAN を用いた新しい条件付き PBiGAN (C-PBiGAN) 法を提案する。
C-PBiGANは, 肺がんのリスク評価において, 代表的計算法と比較して有意に改善した。
論文 参考訳(メタデータ) (2021-07-25T20:15:16Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z) - Dynamically Mitigating Data Discrepancy with Balanced Focal Loss for
Replay Attack Detection [10.851348154870852]
我々は、アンチ・スプーフィングにおいては、モデリングプロセスにおいて容易に分類されたサンプルよりも識別不能なサンプルに注意が必要であると論じている。
本研究は, サンプル自体の特性に基づいて, 損失を動的にスケールする訓練目的として, バランスの取れた焦点損失関数を活用することを提案する。
相補的な特徴により、3種類の機能しか持たない融合系は他のシステムよりも22.5%、min-tDCFが7%、EERが7%向上する。
論文 参考訳(メタデータ) (2020-06-25T17:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。