Fugu-MT 論文翻訳(概要): High-dimensional multiple imputation (HDMI) for partially observed confounders including natural language processing-derived auxiliary covariates

論文の概要: High-dimensional multiple imputation (HDMI) for partially observed confounders including natural language processing-derived auxiliary covariates

arxiv url: http://arxiv.org/abs/2405.10925v1
Date: Fri, 17 May 2024 17:24:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 15:24:17.350573
Title: High-dimensional multiple imputation (HDMI) for partially observed confounders including natural language processing-derived auxiliary covariates
Title（参考訳）: 自然言語処理による補助的共変体を含む部分観察された共同設立者のための高次元多重計算(HDMI)
Authors: Janick Weberpals, Pamela A. Shaw, Kueiyu Joshua Lin, Richard Wyss, Joseph M Plasek, Li Zhou, Kerry Ngan, Thomas DeRamus, Sudha R. Raman, Bradley G. Hammill, Hana Lee, Sengwee Toh, John G. Connolly, Kimberly J. Dandreo, Fang Tian, Wei Liu, Jie Li, José J. Hernández-Muñoz, Sebastian Schneeweiss, Rishi J. Desai,
Abstract要約: 多重計算(MI)モデルは、高次元データに補助共変数(AC)を含めることで改善することができる。我々は,構造化自然言語処理(NLP)を応用したHDMI法を,部分的に観察された共同設立者を用いた研究で開発・比較した。
参考スコア（独自算出の注目度）: 8.604727800281012
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multiple imputation (MI) models can be improved by including auxiliary covariates (AC), but their performance in high-dimensional data is not well understood. We aimed to develop and compare high-dimensional MI (HDMI) approaches using structured and natural language processing (NLP)-derived AC in studies with partially observed confounders. We conducted a plasmode simulation study using data from opioid vs. non-steroidal anti-inflammatory drug (NSAID) initiators (X) with observed serum creatinine labs (Z2) and time-to-acute kidney injury as outcome. We simulated 100 cohorts with a null treatment effect, including X, Z2, atrial fibrillation (U), and 13 other investigator-derived confounders (Z1) in the outcome generation. We then imposed missingness (MZ2) on 50% of Z2 measurements as a function of Z2 and U and created different HDMI candidate AC using structured and NLP-derived features. We mimicked scenarios where U was unobserved by omitting it from all AC candidate sets. Using LASSO, we data-adaptively selected HDMI covariates associated with Z2 and MZ2 for MI, and with U to include in propensity score models. The treatment effect was estimated following propensity score matching in MI datasets and we benchmarked HDMI approaches against a baseline imputation and complete case analysis with Z1 only. HDMI using claims data showed the lowest bias (0.072). Combining claims and sentence embeddings led to an improvement in the efficiency displaying the lowest root-mean-squared-error (0.173) and coverage (94%). NLP-derived AC alone did not perform better than baseline MI. HDMI approaches may decrease bias in studies with partially observed confounders where missingness depends on unobserved factors.
Abstract（参考訳）: 補助共変量(AC)を含めることで、多重計算(MI)モデルを改善することができるが、高次元データにおけるそれらの性能はよく理解されていない。我々は,構造化自然言語処理(NLP)を用いた高次元MI(HDMI)手法を,部分的に観察された共同設立者との研究で開発・比較することを目的とした。オピオイドと非ステロイド性抗炎症薬(NSAID)開始剤(X)と血清クレアチニン(Z2)と経時的腎傷害を併用したプラスミドシミュレーションを行った。結果,X,Z2,心房細動(U),その他13名の共同設立者(Z1)を含む100頭のコホートを無効治療効果で模擬した。その後,Z2とUの関数としてのZ2測定の50%にMZ2の欠如を課し,構造的特徴およびNLP特徴を用いたHDMI候補ACを作成した。我々は、Uが観測されていないシナリオを、すべてのAC候補集合から除外して模倣した。 LASSOを用いて,MI用Z2,MZ2,U用Uに関連するHDMI共変体をデータ適応的に選択した。治療効果はMIデータセットの適合性スコアマッチングに基づいて推定され,Z1のみを用いたベースライン計算と完全ケース解析に対してHDMIアプローチをベンチマークした。クレームデータを用いたHDMIが最も低いバイアス(0.072)を示した。クレームと文の埋め込みを組み合わせることで、ルート平均二乗エラー(0.173)とカバレッジ(94%)の効率が改善された。 NLP由来のAC単独では基線MIよりも優れた性能は得られなかった。 HDMIアプローチは、部分的に観察された共同設立者による研究のバイアスを減少させる可能性がある。

関連論文リスト

Causal Effect Estimation with TMLE: Handling Missing Data and Near-Violations of Positivity [1.1546538067103258]
欠損データシナリオにおける平均処理効果を推定する目的最大推定(TMLE)の性能を評価する。我々はモデルと設計に基づくシミュレーションを採用し、後者は'WASHベネフィットバングラデシュ'データセット上で、アンダースムースな高度適応型ラッソを用いています。解析手法としてTMLEと組み合わせて8つの欠落データ手法を比較し,非多重命令法(non-MI)と多重命令法(multiple imputation,MI)を区別する。
論文参考訳（メタデータ） (2025-10-25T08:01:55Z)
Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文参考訳（メタデータ） (2025-07-14T16:19:00Z)
SMILE-UHURA Challenge -- Small Vessel Segmentation at Mesoscopic Scale from Ultra-High Resolution 7T Magnetic Resonance Angiograms [60.35639972035727]
公開されている注釈付きデータセットの欠如は、堅牢で機械学習駆動のセグメンテーションアルゴリズムの開発を妨げている。 SMILE-UHURAチャレンジは、7T MRIで取得したTime-of-Flightアンジオグラフィーの注釈付きデータセットを提供することで、公開されている注釈付きデータセットのギャップに対処する。 Diceスコアは、それぞれのデータセットで0.838 $pm$0.066と0.716 $pm$ 0.125まで到達し、平均パフォーマンスは0.804 $pm$ 0.15までになった。
論文参考訳（メタデータ） (2024-11-14T17:06:00Z)
A Scalable k-Medoids Clustering via Whale Optimization Algorithm [0.0]
We introduced WOA-kMedoids, a novel unsupervised clustering method which with the Whale Optimization Algorithm (WOA)。セントロイド選択を最適化することにより、WOA-kMedoidsは観測数に関して計算複雑性を2次からほぼ直線に減らす。 We showed that WOA-kMedoids achieved a clustering performance with PAM, a average Rand Index (RI) of 0.731 than PAM's 0.739, out Performance PAM on 12 of 25 datasets。
論文参考訳（メタデータ） (2024-08-30T03:43:37Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
Guided Reconstruction with Conditioned Diffusion Models for Unsupervised Anomaly Detection in Brain MRIs [35.46541584018842]
Unsupervised Anomaly Detection (UAD) は、正常なトレーニング分布から異常を外れ値として識別することを目的としている。生成モデルは、与えられた入力画像に対する健康な脳解剖の再構築を学ぶために使用される。本稿では,入力画像の潜在表現から得られた付加情報を用いて拡散モデルの復調過程を条件付けることを提案する。
論文参考訳（メタデータ） (2023-12-07T11:03:42Z)
FS-Net: Full Scale Network and Adaptive Threshold for Improving Extraction of Micro-Retinal Vessel Structures [4.776514178760067]
本稿では,エンコーダ・デコーダニューラルネットワークアーキテクチャに基づく大規模マイクロ容器抽出機構を提案する。提案手法はDRIVE,CHASE-DB1,STAREデータセットを用いて評価されている。
論文参考訳（メタデータ） (2023-11-14T10:32:17Z)
Unmasking the Chameleons: A Benchmark for Out-of-Distribution Detection in Medical Tabular Data [1.161962828740753]
我々は,近距離OODと遠距離OODを含む一連のテストに対して,異なる手法を比較するベンチマークを提案する。以上の結果から,この問題は遠方のOODでは解決されるが,近方のOODでは未解決であることが明らかとなった。トランスフォーマーアーキテクチャは、ResNetやResNetと比べてはるかに信頼性が低い。
論文参考訳（メタデータ） (2023-09-28T07:52:01Z)
Density-Aware Personalized Training for Risk Prediction in Imbalanced Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。実世界の医療データセットにおけるモデルの性能向上を実証する。
論文参考訳（メタデータ） (2022-07-23T00:39:53Z)
Robust Hierarchical Patterns for identifying MDD patients: A Multisite Study [3.4561220135252264]
大うつ病(MDD)のバイオマーカーとしての階層的スパース接続パターン(h SCP)について検討する。我々は、静止状態fMRIデータから抽出した機能的接続行列からMDD患者を予測するためのh SCPに基づく新しいモデルを提案する。本研究の結果は,多様性が予測性能に与える影響を示し,多様性を低減し,コンポーネントの予測・一般化能力を向上させることができる。
論文参考訳（メタデータ） (2022-02-22T19:40:32Z)
To Impute or not to Impute? -- Missing Data in Treatment Effect Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文参考訳（メタデータ） (2022-02-04T12:08:31Z)
Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing Imputation Perspective [5.64530854079352]
マルチモーダルデータの連成分布をモデル化することで、欠落データの計算に対処する。本稿では, PBiGAN を用いた新しい条件付き PBiGAN (C-PBiGAN) 法を提案する。 C-PBiGANは, 肺がんのリスク評価において, 代表的計算法と比較して有意に改善した。
論文参考訳（メタデータ） (2021-07-25T20:15:16Z)
Bootstrapping Your Own Positive Sample: Contrastive Learning With Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。 EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文参考訳（メタデータ） (2021-04-07T06:02:04Z)
Federated Deep AUC Maximization for Heterogeneous Data with a Constant Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。 FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文参考訳（メタデータ） (2021-02-09T04:05:19Z)
Dynamically Mitigating Data Discrepancy with Balanced Focal Loss for Replay Attack Detection [10.851348154870852]
我々は、アンチ・スプーフィングにおいては、モデリングプロセスにおいて容易に分類されたサンプルよりも識別不能なサンプルに注意が必要であると論じている。本研究は, サンプル自体の特性に基づいて, 損失を動的にスケールする訓練目的として, バランスの取れた焦点損失関数を活用することを提案する。相補的な特徴により、3種類の機能しか持たない融合系は他のシステムよりも22.5%、min-tDCFが7%、EERが7%向上する。
論文参考訳（メタデータ） (2020-06-25T17:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。