論文の概要: Refining CART Models for Covariate Shift with Importance Weight
- arxiv url: http://arxiv.org/abs/2410.20978v1
- Date: Mon, 28 Oct 2024 12:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:20:42.941762
- Title: Refining CART Models for Covariate Shift with Importance Weight
- Title(参考訳): 重み付き共変量シフトのためのCARTモデルの精錬
- Authors: Mingyang Cai, Thomas Klausch, Mark A. van de Wiel,
- Abstract要約: 本稿では,これらの分布差に効果的に対処するための重み付けを取り入れた分類と回帰木(CART)の適応について紹介する。
本手法の有効性をシミュレーション研究により評価し,実世界の医療データに適用し,予測精度を大幅に向上させた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Machine learning models often face challenges in medical applications due to covariate shifts, where discrepancies between training and target data distributions can decrease predictive accuracy. This paper introduces an adaptation of Classification and Regression Trees (CART) that incorporates importance weighting to address these distributional differences effectively. By assigning greater weight to training samples that closely represent the target distribution, our approach modifies the CART model to improve performance in the presence of covariate shift. We evaluate the effectiveness of this method through simulation studies and apply it to real-world medical data, showing significant improvements in predictive accuracy. The results indicate that this weighted CART approach can be valuable in medical and other fields where covariate shift poses challenges, enabling more reliable predictions across diverse data distributions.
- Abstract(参考訳): 機械学習モデルは、トレーニングとターゲットデータ分布の相違が予測精度を低下させるような、共変量シフトによる医療応用における課題に直面することが多い。
本稿では,これらの分布差に効果的に対処するための重み付けを取り入れた分類・回帰木(CART)の適応について紹介する。
目標分布を密に表現したトレーニングサンプルに重みを割り当てることで,共変量シフトの有無でCARTモデルを改良し,性能を向上する。
本手法の有効性をシミュレーション研究により評価し,実世界の医療データに適用し,予測精度を大幅に向上させた。
その結果、この重み付きCARTアプローチは、共変量シフトが課題を引き起こす医療や他の分野において有用であり、多様なデータ分布にまたがるより信頼性の高い予測を可能にすることが示唆された。
関連論文リスト
- DeCaf: A Causal Decoupling Framework for OOD Generalization on Node Classification [14.96980804513399]
グラフニューラルネットワーク(GNN)は、分散シフトの影響を受けやすいため、クリティカルドメインの脆弱性やセキュリティ上の問題が発生する。
不変(機能、構造)-ラベルマッピングの学習を目標とする既存の方法は、データ生成プロセスに関する過度に単純化された仮定に依存することが多い。
構造因果モデル(SCM)を用いたより現実的なグラフデータ生成モデルを提案する。
本稿では,非バイアスな特徴ラベルと構造ラベルのマッピングを独立に学習する,カジュアルなデカップリングフレームワークDeCafを提案する。
論文 参考訳(メタデータ) (2024-10-27T00:22:18Z) - Generative Principal Component Regression via Variational Inference [2.4415762506639944]
適切な操作を設計するための1つのアプローチは、予測モデルの重要な特徴をターゲットとすることである。
我々は,そのような情報を潜在空間で表現する,教師付き変分オートエンコーダ(SVAE)に基づく新しい目的を開発する。
シミュレーションでは,gPCRは通常のPCRやSVAEと比較して,操作時のターゲット選択を劇的に改善することを示した。
論文 参考訳(メタデータ) (2024-09-03T22:38:55Z) - Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications [0.0]
本研究では,合成データを用いたモデル適応と一般化について検討する。
我々は、データ類似性を評価するために、Kullback-Leiblerの発散、Jensen-Shannon距離、Mahalanobis距離などの量的尺度を用いる。
本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,あるいは高誤差の「補間体制」が分布変化とモデル不確実性を評価するための補完的手法を提供することを示唆している。
論文 参考訳(メタデータ) (2024-05-03T10:05:31Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Vector-Based Data Improves Left-Right Eye-Tracking Classifier
Performance After a Covariate Distributional Shift [0.0]
我々は、より堅牢なベンチマークを作成するために、EEG-ETデータ収集のための微粒なデータアプローチを提案する。
我々は、粗粒データと細粒データの両方を利用して機械学習モデルを訓練し、類似/異なる分布パターンのデータでテストした場合の精度を比較した。
その結果、細粒度ベクトルベースでトレーニングされたモデルは、粗粒度二分分類されたデータでトレーニングされたモデルよりも分布シフトの影響を受けにくいことがわかった。
論文 参考訳(メタデータ) (2022-07-31T16:27:50Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。