論文の概要: Optimal Ensemble Construction for Multi-Study Prediction with
Applications to COVID-19 Excess Mortality Estimation
- arxiv url: http://arxiv.org/abs/2109.09164v1
- Date: Sun, 19 Sep 2021 16:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:51:40.703293
- Title: Optimal Ensemble Construction for Multi-Study Prediction with
Applications to COVID-19 Excess Mortality Estimation
- Title(参考訳): マルチスタディ予測のための最適アンサンブル構築とCOVID-19過剰死亡推定への応用
- Authors: Gabriel Loewinger, Rolando Acosta Nunez, Rahul Mazumder and Giovanni
Parmigiani
- Abstract要約: マルチスタディ・アンサンブルは、研究固有のモデルに適合し、アンサンブル重みを別々に推定する2段階戦略を用いる。
このアプローチは、モデル適合段階でのアンサンブル特性を無視し、効率を損なう可能性がある。
パンデミックの開始前にはほとんどデータが入手できない場合、他の国のデータを活用することで、予測精度が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 7.02598981483736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is increasingly common to encounter prediction tasks in the biomedical
sciences for which multiple datasets are available for model training. Common
approaches such as pooling datasets and applying standard statistical learning
methods can result in poor out-of-study prediction performance when datasets
are heterogeneous. Theoretical and applied work has shown $\textit{multi-study
ensembling}$ to be a viable alternative that leverages the variability across
datasets in a manner that promotes model generalizability. Multi-study
ensembling uses a two-stage $\textit{stacking}$ strategy which fits
study-specific models and estimates ensemble weights separately. This approach
ignores, however, the ensemble properties at the model-fitting stage,
potentially resulting in a loss of efficiency. We therefore propose
$\textit{optimal ensemble construction}$, an $\textit{all-in-one}$ approach to
multi-study stacking whereby we jointly estimate ensemble weights as well as
parameters associated with each study-specific model. We prove that limiting
cases of our approach yield existing methods such as multi-study stacking and
pooling datasets before model fitting. We propose an efficient block coordinate
descent algorithm to optimize the proposed loss function. We compare our
approach to standard methods by applying it to a multi-country COVID-19 dataset
for baseline mortality prediction. We show that when little data is available
for a country before the onset of the pandemic, leveraging data from other
countries can substantially improve prediction accuracy. Importantly, our
approach outperforms multi-study stacking and other standard methods in this
application. We further characterize the method's performance in data-driven
and other simulations. Our method remains competitive with or outperforms
multi-study stacking and other earlier methods across a range of between-study
heterogeneity levels.
- Abstract(参考訳): モデルトレーニングのために複数のデータセットが利用できるバイオメディカルサイエンスにおいて、予測タスクに遭遇することがますます多い。
データセットのプーリングや標準統計学習手法の適用といった一般的なアプローチは、データセットが異種である場合の予測性能が低下する可能性がある。
理論的および応用的な研究により、$\textit{multi-study ensembling}$は、モデル一般化性を促進する方法でデータセット間の可変性を活用する実行可能な代替物であることが示されている。
multi-study ensemblingは、2段階の$\textit{stacking}$ストラテジを使用して、研究固有のモデルに適合し、アンサンブル重みを別々に見積もる。
しかし、このアプローチはモデルフィッティング段階におけるアンサンブル特性を無視し、効率を損なう可能性がある。
そこで我々は, マルチスタディ・スタックリングに対する $\textit{optimal ensemble construction}$, a $\textit{all-in-one}$アプローチを提案する。
このアプローチの制限ケースは、モデルフィッティングの前にマルチスタディスタッキングやデータセットのプーリングといった既存のメソッドをもたらすことを証明します。
提案する損失関数を最適化する効率的なブロック座標降下アルゴリズムを提案する。
本手法を基準死亡率予測のための多国別データセットに適用し,標準手法と比較した。
パンデミックの開始前にはほとんどデータが入手できない場合、他国のデータを活用することで予測精度が大幅に向上することを示す。
重要なことに、このアプローチは、このアプリケーションにおけるマルチスタディスタックや他の標準メソッドよりも優れています。
データ駆動や他のシミュレーションにおける手法の性能をさらに特徴付ける。
提案手法は, マルチスタディ・スタックリングや他の先行手法と競合し, 性能的に優れる。
関連論文リスト
- Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Multiply Robust Estimation for Local Distribution Shifts with Multiple Domains [9.429772474335122]
我々は、全人口の複数のセグメントにまたがってデータ分布が変化するシナリオに焦点を当てる。
そこで本研究では,各セグメントのモデル性能を改善するために,二段階多重ロバスト推定法を提案する。
本手法は,市販の機械学習モデルを用いて実装されるように設計されている。
論文 参考訳(メタデータ) (2024-02-21T22:01:10Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Deep Learning with Multiple Data Set: A Weighted Goal Programming
Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。
ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。
本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:10:25Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z) - StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics [4.237343083490243]
機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されている。
StackGenVisは、スタック化された一般化のためのビジュアル分析システムである。
論文 参考訳(メタデータ) (2020-05-04T15:43:55Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。