論文の概要: Evaluation of data imputation strategies in complex, deeply-phenotyped
data sets: the case of the EU-AIMS Longitudinal European Autism Project
- arxiv url: http://arxiv.org/abs/2201.09753v1
- Date: Thu, 20 Jan 2022 21:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 17:44:38.174965
- Title: Evaluation of data imputation strategies in complex, deeply-phenotyped
data sets: the case of the EU-AIMS Longitudinal European Autism Project
- Title(参考訳): EU-AIMS経時的欧州自閉症プロジェクトにおける複雑・過渡型データセットのデータ計算戦略の評価
- Authors: A. Llera, M. Brammer, B. Oakley, J. Tillmann, M. Zabihi, T. Mei, T.
Charman, C. Ecker, F. Dell Acqua, T. Banaschewski, C. Moessnang, S.
Baron-Cohen, R. Holt, S. Durston, D. Murphy, E. Loth, J. K. Buitelaar, D. L.
Floris, and C. F. Beckmann
- Abstract要約: 臨床データの欠落を補うために, 大規模(全N=764)データセットから異なる計算法を評価した。
参加者の重複する15のサブセットに160の臨床試験を分けて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An increasing number of large-scale multi-modal research initiatives has been
conducted in the typically developing population, as well as in psychiatric
cohorts. Missing data is a common problem in such datasets due to the
difficulty of assessing multiple measures on a large number of participants.
The consequences of missing data accumulate when researchers aim to explore
relationships between multiple measures. Here we aim to evaluate different
imputation strategies to fill in missing values in clinical data from a large
(total N=764) and deeply characterised (i.e. range of clinical and cognitive
instruments administered) sample of N=453 autistic individuals and N=311
control individuals recruited as part of the EU-AIMS Longitudinal European
Autism Project (LEAP) consortium. In particular we consider a total of 160
clinical measures divided in 15 overlapping subsets of participants. We use two
simple but common univariate strategies, mean and median imputation, as well as
a Round Robin regression approach involving four independent multivariate
regression models including a linear model, Bayesian Ridge regression, as well
as several non-linear models, Decision Trees, Extra Trees and K-Neighbours
regression. We evaluate the models using the traditional mean square error
towards removed available data, and consider in addition the KL divergence
between the observed and the imputed distributions. We show that all of the
multivariate approaches tested provide a substantial improvement compared to
typical univariate approaches. Further, our analyses reveal that across all 15
data-subsets tested, an Extra Trees regression approach provided the best
global results. This allows the selection of a unique model to impute missing
data for the LEAP project and deliver a fixed set of imputed clinical data to
be used by researchers working with the LEAP dataset in the future.
- Abstract(参考訳): 一般的に発達している人口や精神科コホートにおいて、大規模なマルチモーダル研究イニシアチブが増えている。
このようなデータセットでは、多数の参加者に対して複数の尺度を評価することが困難であるため、データの欠如は一般的な問題である。
研究者が複数の尺度の関係を探究する際、データ不足の結果が蓄積される。
ここでは,EU-AIMS長期欧州自閉症プロジェクト(LEAP)コンソーシアムの一環として,N=453の自閉症者およびN=311のコントロール者を対象に,大きな(全N=764)臨床データから欠落した値を補うためのさまざまな計算方法を評価することを目的とする。
特に, 参加者の重なり合う15のサブセットに160の臨床試験を分けて検討した。
線形モデル,ベイジアンリッジ回帰(Bayesian Ridge regression)を含む4つの独立多変量回帰モデルと,決定木(Decision Trees),外部木(Extra Trees),K-Neighbours回帰(K-Neighbours regression)を含む非線形モデルを含む。
従来の平均二乗誤差を用いたデータ除去モデルの評価を行い, 観測分布と推定分布のkl偏差を考察した。
テストされた多変量アプローチはすべて,一般的な不定値アプローチと比較して相当な改善が得られている。
さらに, 分析の結果, 試験対象とする15個のデータ集合に対して, 木を回帰する手法が最適であることがわかった。
これにより、ユニークなモデルを選択することで、LEAPプロジェクトの欠落したデータをインプットし、将来LEAPデータセットを扱う研究者が使用する、固定されたインプットされた臨床データを提供することができる。
関連論文リスト
- Bayesian Federated Inference for regression models based on non-shared multicenter data sets from heterogeneous populations [0.0]
回帰モデルでは、サンプルサイズは予測器の数に対して十分な大きさでなければならない。
異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。
別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。
このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。
論文 参考訳(メタデータ) (2024-02-05T11:10:27Z) - An AI-Guided Data Centric Strategy to Detect and Mitigate Biases in
Healthcare Datasets [32.25265709333831]
我々は、小さなサンプルサイズ(AEquity)で異なるグループをいかに容易に学習するかを調査することによって、データセットバイアスを評価するために、データ中心、モデルに依存しないタスク非依存のアプローチを生成する。
次に、サブポピュレーション全体にわたるAEq値の体系的分析を適用し、医療における2つの既知の事例において、人種的偏見の特定と顕在化を図った。
AEqは、医療データセットのバイアスを診断し、修正することで、エクイティの前進に適用できる、新しく広く適用可能なメトリクスである。
論文 参考訳(メタデータ) (2023-11-06T17:08:41Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - A method for comparing multiple imputation techniques: a case study on
the U.S. National COVID Cohort Collaborative [1.259457977936316]
統計的解析の文脈において、欠落データを扱うための戦略を数値的に評価する。
このアプローチは、最も有効でパフォーマンスの低いデータハンドリング戦略を効果的に強調することができる。
論文 参考訳(メタデータ) (2022-06-13T19:49:54Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing
Imputation Perspective [5.64530854079352]
マルチモーダルデータの連成分布をモデル化することで、欠落データの計算に対処する。
本稿では, PBiGAN を用いた新しい条件付き PBiGAN (C-PBiGAN) 法を提案する。
C-PBiGANは, 肺がんのリスク評価において, 代表的計算法と比較して有意に改善した。
論文 参考訳(メタデータ) (2021-07-25T20:15:16Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Mixture Model Framework for Traumatic Brain Injury Prognosis Using
Heterogeneous Clinical and Outcome Data [3.7363119896212478]
TBIに関連する大きな異種データ型をモデル化する手法を開発する。
このモデルは、人口統計、血液ベースのバイオマーカー、画像検出など、さまざまなデータタイプを含むデータセットでトレーニングされます。
教師なしの学習環境で患者を別々のグループに成層するために使用されます。
論文 参考訳(メタデータ) (2020-12-22T19:31:03Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。