論文の概要: A Semi-supervised CART Model for Covariate Shift
- arxiv url: http://arxiv.org/abs/2410.20978v2
- Date: Sun, 22 Dec 2024 10:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:02.992070
- Title: A Semi-supervised CART Model for Covariate Shift
- Title(参考訳): 共変量シフトのための半教師付きCARTモデル
- Authors: Mingyang Cai, Thomas Klausch, Mark A. van de Wiel,
- Abstract要約: 本稿では,重み付けを用いた半教師付き分類・回帰木(CART)を提案する。
本手法は,トレーニングサンプルに重みを割り当てることで,CARTモデルの予測性能を向上させる。
実世界の医療データに対するシミュレーション研究と応用を通して,予測精度の大幅な向上を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Machine learning models used in medical applications often face challenges due to the covariate shift, which occurs when there are discrepancies between the distributions of training and target data. This can lead to decreased predictive accuracy, especially with unknown outcomes in the target data. This paper introduces a semi-supervised classification and regression tree (CART) that uses importance weighting to address these distribution discrepancies. Our method improves the predictive performance of the CART model by assigning greater weights to training samples that more accurately represent the target distribution, especially in cases of covariate shift without target outcomes. In addition to CART, we extend this weighted approach to generalized linear model trees and tree ensembles, creating a versatile framework for managing the covariate shift in complex datasets. Through simulation studies and applications to real-world medical data, we demonstrate significant improvements in predictive accuracy. These findings suggest that our weighted approach can enhance reliability in medical applications and other fields where the covariate shift poses challenges to model performance across various data distributions.
- Abstract(参考訳): 医療アプリケーションで使用される機械学習モデルは、トレーニングとターゲットデータの分布に相違がある場合に発生する、共変量シフトによる課題に直面することが多い。
これは予測精度を低下させ、特にターゲットデータに未知の結果をもたらす可能性がある。
本稿では,これらの分布の相違に対処するために重み付けを用いた半教師付き分類・回帰木(CART)を提案する。
本手法は,特に目標値のない共変量シフトの場合において,目標分布をより正確に表現したトレーニングサンプルに重みを割り当てることで,CARTモデルの予測性能を向上させる。
CARTに加えて、この重み付けされたアプローチを一般化された線形モデル木やツリーアンサンブルに拡張し、複雑なデータセットの共変量シフトを管理するための汎用的なフレームワークを作成する。
実世界の医療データに対するシミュレーション研究と応用を通して,予測精度の大幅な向上を示す。
これらの結果から,我々の重み付けアプローチは,様々なデータ分布にまたがる性能をモデル化する上で,共変量シフトが課題となる医療応用やその他の分野の信頼性を高めることができることが示唆された。
関連論文リスト
- Optimizing importance weighting in the presence of sub-population shifts [0.0]
トレーニングデータとテストデータの間の分散シフトは、機械学習モデルの性能を著しく損なう可能性がある。
トレーニングデータの有限標本サイズによる推定モデルのばらつきの増大を無視するため,既存の重み付けは準最適であると主張する。
重みとモデルパラメータを同時に最適化する二段階最適化手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T09:21:10Z) - Understanding Calibration of Deep Neural Networks for Medical Image
Classification [3.461503547789351]
本研究では,異なるトレーニング体制下でのモデル性能とキャリブレーションについて検討する。
本研究は,完全教師付きトレーニングと,移動学習を伴わない回転型自己教師方式について考察する。
本研究では,重み分布や学習表現の類似性などの要因が,モデルで観測されるキャリブレーション傾向と相関していることを明らかにする。
論文 参考訳(メタデータ) (2023-09-22T18:36:07Z) - Characterizing Out-of-Distribution Error via Optimal Transport [15.284665509194134]
ラベルなしでOODデータ上でモデルの性能を予測する方法は、機械学習の安全性にとって重要である。
最適輸送理論を利用してモデル性能を推定する新しい手法を提案する。
提案手法は既存の最先端手法よりも最大3倍低い予測誤差で大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T01:37:13Z) - Density-Aware Personalized Training for Risk Prediction in Imbalanced
Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。
この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。
実世界の医療データセットにおけるモデルの性能向上を実証する。
論文 参考訳(メタデータ) (2022-07-23T00:39:53Z) - Undersmoothing Causal Estimators with Generative Trees [0.0]
観察データから個別に治療効果を推定することで、標的となる介入の可能性を解き放つことができる。
しかし、観測データからこれらの効果を推測することは困難である。
本稿では,モデルの不特定に対処する新しい生成木に基づくアプローチについて検討する。
論文 参考訳(メタデータ) (2022-03-16T11:59:38Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Causal Effect Variational Autoencoder with Uniform Treatment [50.895390968371665]
因果効果変動オートエンコーダ(CEVAE)をトレーニングし、観察処理データから結果を予測する。
均一処理変分オートエンコーダ (UTVAE) は, 重要サンプリングを用いて均一な処理分布を訓練する。
論文 参考訳(メタデータ) (2021-11-16T17:40:57Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。