Fugu-MT 論文翻訳(概要): A Semi-supervised CART Model for Covariate Shift

論文の概要: A Semi-supervised CART Model for Covariate Shift

arxiv url: http://arxiv.org/abs/2410.20978v2
Date: Sun, 22 Dec 2024 10:41:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.732404
Title: A Semi-supervised CART Model for Covariate Shift
Title（参考訳）: 共変量シフトのための半教師付きCARTモデル
Authors: Mingyang Cai, Thomas Klausch, Mark A. van de Wiel,
Abstract要約: 本稿では,重み付けを用いた半教師付き分類・回帰木(CART)を提案する。本手法は,トレーニングサンプルに重みを割り当てることで,CARTモデルの予測性能を向上させる。実世界の医療データに対するシミュレーション研究と応用を通して,予測精度の大幅な向上を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning models used in medical applications often face challenges due to the covariate shift, which occurs when there are discrepancies between the distributions of training and target data. This can lead to decreased predictive accuracy, especially with unknown outcomes in the target data. This paper introduces a semi-supervised classification and regression tree (CART) that uses importance weighting to address these distribution discrepancies. Our method improves the predictive performance of the CART model by assigning greater weights to training samples that more accurately represent the target distribution, especially in cases of covariate shift without target outcomes. In addition to CART, we extend this weighted approach to generalized linear model trees and tree ensembles, creating a versatile framework for managing the covariate shift in complex datasets. Through simulation studies and applications to real-world medical data, we demonstrate significant improvements in predictive accuracy. These findings suggest that our weighted approach can enhance reliability in medical applications and other fields where the covariate shift poses challenges to model performance across various data distributions.
Abstract（参考訳）: 医療アプリケーションで使用される機械学習モデルは、トレーニングとターゲットデータの分布に相違がある場合に発生する、共変量シフトによる課題に直面することが多い。これは予測精度を低下させ、特にターゲットデータに未知の結果をもたらす可能性がある。本稿では,これらの分布の相違に対処するために重み付けを用いた半教師付き分類・回帰木(CART)を提案する。本手法は,特に目標値のない共変量シフトの場合において,目標分布をより正確に表現したトレーニングサンプルに重みを割り当てることで,CARTモデルの予測性能を向上させる。 CARTに加えて、この重み付けされたアプローチを一般化された線形モデル木やツリーアンサンブルに拡張し、複雑なデータセットの共変量シフトを管理するための汎用的なフレームワークを作成する。実世界の医療データに対するシミュレーション研究と応用を通して,予測精度の大幅な向上を示す。これらの結果から,我々の重み付けアプローチは,様々なデータ分布にまたがる性能をモデル化する上で,共変量シフトが課題となる医療応用やその他の分野の信頼性を高めることができることが示唆された。

関連論文リスト

Multi-environment Invariance Learning with Missing Data [0.0]
本研究では、変数選択特性と$ell$エラー収束率に関する漸近的でない保証を確立する。シミュレーションにより新しい推定器の性能を評価し,その応用をUCI Bike Sharingデータセットを用いて実証した。
論文参考訳（メタデータ） (2026-01-12T06:30:58Z)
Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA) 我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-11-15T08:39:22Z)
Robust Molecular Property Prediction via Densifying Scarce Labeled Data [51.55434084913129]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。本稿では,未ラベルデータを利用したメタラーニングに基づく新しい手法を提案する。実世界のデータセットに挑戦する上で、大きなパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-06-13T15:27:40Z)
DeCaf: A Causal Decoupling Framework for OOD Generalization on Node Classification [14.96980804513399]
グラフニューラルネットワーク(GNN)は、分散シフトの影響を受けやすいため、クリティカルドメインの脆弱性やセキュリティ上の問題が発生する。不変(機能、構造)-ラベルマッピングの学習を目標とする既存の方法は、データ生成プロセスに関する過度に単純化された仮定に依存することが多い。構造因果モデル(SCM)を用いたより現実的なグラフデータ生成モデルを提案する。本稿では,非バイアスな特徴ラベルと構造ラベルのマッピングを独立に学習する,カジュアルなデカップリングフレームワークDeCafを提案する。
論文参考訳（メタデータ） (2024-10-27T00:22:18Z)
Optimizing importance weighting in the presence of sub-population shifts [0.0]
トレーニングデータとテストデータの間の分散シフトは、機械学習モデルの性能を著しく損なう可能性がある。トレーニングデータの有限標本サイズによる推定モデルのばらつきの増大を無視するため,既存の重み付けは準最適であると主張する。重みとモデルパラメータを同時に最適化する二段階最適化手法を提案する。
論文参考訳（メタデータ） (2024-10-18T09:21:10Z)
Generative Principal Component Regression via Variational Inference [2.4415762506639944]
適切な操作を設計するための1つのアプローチは、予測モデルの重要な特徴をターゲットとすることである。我々は,そのような情報を潜在空間で表現する,教師付き変分オートエンコーダ(SVAE)に基づく新しい目的を開発する。シミュレーションでは,gPCRは通常のPCRやSVAEと比較して,操作時のターゲット選択を劇的に改善することを示した。
論文参考訳（メタデータ） (2024-09-03T22:38:55Z)
Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications [0.0]
本研究では,合成データを用いたモデル適応と一般化について検討する。我々は、データ類似性を評価するために、Kullback-Leiblerの発散、Jensen-Shannon距離、Mahalanobis距離などの量的尺度を用いる。本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,あるいは高誤差の「補間体制」が分布変化とモデル不確実性を評価するための補完的手法を提供することを示唆している。
論文参考訳（メタデータ） (2024-05-03T10:05:31Z)
Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文参考訳（メタデータ） (2023-10-03T17:37:52Z)
Understanding Calibration of Deep Neural Networks for Medical Image Classification [3.461503547789351]
本研究では,異なるトレーニング体制下でのモデル性能とキャリブレーションについて検討する。本研究は,完全教師付きトレーニングと,移動学習を伴わない回転型自己教師方式について考察する。本研究では,重み分布や学習表現の類似性などの要因が,モデルで観測されるキャリブレーション傾向と相関していることを明らかにする。
論文参考訳（メタデータ） (2023-09-22T18:36:07Z)
Characterizing Out-of-Distribution Error via Optimal Transport [15.284665509194134]
ラベルなしでOODデータ上でモデルの性能を予測する方法は、機械学習の安全性にとって重要である。最適輸送理論を利用してモデル性能を推定する新しい手法を提案する。提案手法は既存の最先端手法よりも最大3倍低い予測誤差で大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T01:37:13Z)
Vector-Based Data Improves Left-Right Eye-Tracking Classifier Performance After a Covariate Distributional Shift [0.0]
我々は、より堅牢なベンチマークを作成するために、EEG-ETデータ収集のための微粒なデータアプローチを提案する。我々は、粗粒データと細粒データの両方を利用して機械学習モデルを訓練し、類似/異なる分布パターンのデータでテストした場合の精度を比較した。その結果、細粒度ベクトルベースでトレーニングされたモデルは、粗粒度二分分類されたデータでトレーニングされたモデルよりも分布シフトの影響を受けにくいことがわかった。
論文参考訳（メタデータ） (2022-07-31T16:27:50Z)
Density-Aware Personalized Training for Risk Prediction in Imbalanced Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。実世界の医療データセットにおけるモデルの性能向上を実証する。
論文参考訳（メタデータ） (2022-07-23T00:39:53Z)
Undersmoothing Causal Estimators with Generative Trees [0.0]
観察データから個別に治療効果を推定することで、標的となる介入の可能性を解き放つことができる。しかし、観測データからこれらの効果を推測することは困難である。本稿では,モデルの不特定に対処する新しい生成木に基づくアプローチについて検討する。
論文参考訳（メタデータ） (2022-03-16T11:59:38Z)
FairIF: Boosting Fairness in Deep Learning via Influence Functions with Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。 FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文参考訳（メタデータ） (2022-01-15T05:14:48Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Causal Effect Variational Autoencoder with Uniform Treatment [50.895390968371665]
因果効果変動オートエンコーダ(CEVAE)をトレーニングし、観察処理データから結果を予測する。均一処理変分オートエンコーダ (UTVAE) は, 重要サンプリングを用いて均一な処理分布を訓練する。
論文参考訳（メタデータ） (2021-11-16T17:40:57Z)
Accuracy on the Line: On the Strong Correlation Between Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文参考訳（メタデータ） (2021-07-09T19:48:23Z)
Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文参考訳（メタデータ） (2021-07-07T15:50:18Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)
Unlabelled Data Improves Bayesian Uncertainty Calibration under Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文参考訳（メタデータ） (2020-06-26T13:50:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。