論文の概要: Co-data Learning for Bayesian Additive Regression Trees
- arxiv url: http://arxiv.org/abs/2311.09997v2
- Date: Sun, 03 Nov 2024 14:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:44:29.274113
- Title: Co-data Learning for Bayesian Additive Regression Trees
- Title(参考訳): ベイジアン付加回帰木のコデータ学習
- Authors: Jeroen M. Goedhart, Thomas Klausch, Jurriaan Janssen, Mark A. van de Wiel,
- Abstract要約: 本稿では,コデータから木間関係の予測モデルを構築することを提案する。
提案手法は複数のデータ型を同時に扱うことができる。
Co-dataは、大きなB細胞リンパ腫の予後を拡散させる用途における予測を強化する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Medical prediction applications often need to deal with small sample sizes compared to the number of covariates. Such data pose problems for prediction and variable selection, especially when the covariate-response relationship is complicated. To address these challenges, we propose to incorporate co-data, i.e. external information on the covariates, into Bayesian additive regression trees (BART), a sum-of-trees prediction model that utilizes priors on the tree parameters to prevent overfitting. To incorporate co-data, an empirical Bayes (EB) framework is developed that estimates, assisted by a co-data model, prior covariate weights in the BART model. The proposed method can handle multiple types of co-data simultaneously. Furthermore, the proposed EB framework enables the estimation of the other hyperparameters of BART as well, rendering an appealing alternative to cross-validation. We show that the method finds relevant covariates and that it improves prediction compared to default BART in simulations. If the covariate-response relationship is nonlinear, the method benefits from the flexibility of BART to outperform regression-based co-data learners. Finally, the use of co-data enhances prediction in an application to diffuse large B-cell lymphoma prognosis based on clinical covariates, gene mutations, DNA translocations, and DNA copy number data. Keywords: Bayesian additive regression trees; Empirical Bayes; Co-data; High-dimensional data; Omics; Prediction
- Abstract(参考訳): 医学的な予測アプリケーションは、共変量よりも小さなサンプルサイズを扱う必要があることが多い。
このようなデータは、特に共変量-応答関係が複雑である場合、予測と変数選択に問題を引き起こす。
これらの課題に対処するため、木パラメータの先行値を利用した過剰適合防止モデルであるBayesian additive regression Tree (BART) に、共変数の外部情報(co-data)を組み込むことを提案する。
共データを組み込むために、BARTモデルにおける共変量重みを推定する経験的ベイズ(EB)フレームワークを開発した。
提案手法は複数のデータ型を同時に扱うことができる。
さらに,提案するEBフレームワークにより,BARTの他のハイパーパラメータの推定が可能となり,クロスバリデーションの代替として魅力的なものとなる。
本手法は, シミュレーションにおいて, 既定のBARTと比較して, 関連変数の探索を行い, 予測精度を向上することを示す。
共変量-応答関係が非線形であれば、BARTの柔軟性から回帰に基づくデータ学習者よりも優れている。
最後に、co-dataの使用により、臨床共変体、遺伝子変異、DNAトランスロケーション、DNAコピー数データに基づいて、大きなB細胞リンパ腫の予後を拡散するアプリケーションにおける予測が強化される。
キーワード:ベイズ累積回帰木、実証ベイズ、コデータ、高次元データ、オミクス、予測
関連論文リスト
- Efficient adjustment for complex covariates: Gaining efficiency with
DOPE [56.537164957672715]
共変量によって表現される情報のサブセットを調整可能なフレームワークを提案する。
理論的な結果に基づいて,平均処理効果(ATE)の効率的な評価を目的とした,デバイアスドアウトカム適応確率推定器(DOPE)を提案する。
その結果,DOPE は様々な観測環境において ATE 推定のための効率的かつ堅牢な手法を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-20T13:02:51Z) - Linked shrinkage to improve estimation of interaction effects in
regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。
我々は,選択戦略では難しい推論モデルの可能性を評価する。
私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文 参考訳(メタデータ) (2023-09-25T10:03:39Z) - ecpc: An R-package for generic co-data models for high-dimensional
prediction [0.0]
R-package ecpcはもともと、様々な、おそらく複数のコデータソースに対応していた。
本稿では,汎用コデータモデルのための手法とソフトウェアの拡張について述べる。
R-package squeezyにより,リッジのペナルティが弾性ネットペナルティにどのように変換されるかを示す。
論文 参考訳(メタデータ) (2022-05-16T12:55:19Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Sparse Bayesian Causal Forests for Heterogeneous Treatment Effects
Estimation [0.0]
本稿では,ベイジアン因果樹林のスパース性誘導型を考案する。
観察データを用いて不均一な治療効果を推定する。
論文 参考訳(メタデータ) (2021-02-12T15:24:50Z) - A Hypergradient Approach to Robust Regression without Correspondence [85.49775273716503]
本稿では,入力データと出力データとの対応が不十分な回帰問題について考察する。
ほとんどの既存手法はサンプルサイズが小さい場合にのみ適用できる。
シャッフル回帰問題に対する新しい計算フレームワークであるROBOTを提案する。
論文 参考訳(メタデータ) (2020-11-30T21:47:38Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Flexible co-data learning for high-dimensional prediction [0.0]
データが高次元である場合、臨床予測は難しいが、ドメイン知識のような追加情報は、予測を改善するのに役立つかもしれない。
提案手法は,複数データソースを多種多様なデータソースに利用して予測を改善する。
がんゲノム学の2つの応用でこれを実証し、他の高密度および同相の予後モデルの性能を向上させる可能性があることを示す。
論文 参考訳(メタデータ) (2020-05-08T13:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。