Fugu-MT 論文翻訳(概要): Refining CART Models for Covariate Shift with Importance Weight

論文の概要: Refining CART Models for Covariate Shift with Importance Weight

arxiv url: http://arxiv.org/abs/2410.20978v1
Date: Mon, 28 Oct 2024 12:53:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.290827
Title: Refining CART Models for Covariate Shift with Importance Weight
Title（参考訳）: 重み付き共変量シフトのためのCARTモデルの精錬
Authors: Mingyang Cai, Thomas Klausch, Mark A. van de Wiel,
Abstract要約: 本稿では,これらの分布差に効果的に対処するための重み付けを取り入れた分類と回帰木(CART)の適応について紹介する。本手法の有効性をシミュレーション研究により評価し,実世界の医療データに適用し,予測精度を大幅に向上させた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning models often face challenges in medical applications due to covariate shifts, where discrepancies between training and target data distributions can decrease predictive accuracy. This paper introduces an adaptation of Classification and Regression Trees (CART) that incorporates importance weighting to address these distributional differences effectively. By assigning greater weight to training samples that closely represent the target distribution, our approach modifies the CART model to improve performance in the presence of covariate shift. We evaluate the effectiveness of this method through simulation studies and apply it to real-world medical data, showing significant improvements in predictive accuracy. The results indicate that this weighted CART approach can be valuable in medical and other fields where covariate shift poses challenges, enabling more reliable predictions across diverse data distributions.
Abstract（参考訳）: 機械学習モデルは、トレーニングとターゲットデータ分布の相違が予測精度を低下させるような、共変量シフトによる医療応用における課題に直面することが多い。本稿では,これらの分布差に効果的に対処するための重み付けを取り入れた分類・回帰木(CART)の適応について紹介する。目標分布を密に表現したトレーニングサンプルに重みを割り当てることで,共変量シフトの有無でCARTモデルを改良し,性能を向上する。本手法の有効性をシミュレーション研究により評価し,実世界の医療データに適用し,予測精度を大幅に向上させた。その結果、この重み付きCARTアプローチは、共変量シフトが課題を引き起こす医療や他の分野において有用であり、多様なデータ分布にまたがるより信頼性の高い予測を可能にすることが示唆された。

関連論文リスト

Multi-environment Invariance Learning with Missing Data [0.0]
本研究では、変数選択特性と$ell$エラー収束率に関する漸近的でない保証を確立する。シミュレーションにより新しい推定器の性能を評価し,その応用をUCI Bike Sharingデータセットを用いて実証した。
論文参考訳（メタデータ） (2026-01-12T06:30:58Z)
Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA) 我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-11-15T08:39:22Z)
Robust Molecular Property Prediction via Densifying Scarce Labeled Data [51.55434084913129]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。本稿では,未ラベルデータを利用したメタラーニングに基づく新しい手法を提案する。実世界のデータセットに挑戦する上で、大きなパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-06-13T15:27:40Z)
DeCaf: A Causal Decoupling Framework for OOD Generalization on Node Classification [14.96980804513399]
グラフニューラルネットワーク(GNN)は、分散シフトの影響を受けやすいため、クリティカルドメインの脆弱性やセキュリティ上の問題が発生する。不変(機能、構造)-ラベルマッピングの学習を目標とする既存の方法は、データ生成プロセスに関する過度に単純化された仮定に依存することが多い。構造因果モデル(SCM)を用いたより現実的なグラフデータ生成モデルを提案する。本稿では,非バイアスな特徴ラベルと構造ラベルのマッピングを独立に学習する,カジュアルなデカップリングフレームワークDeCafを提案する。
論文参考訳（メタデータ） (2024-10-27T00:22:18Z)
Optimizing importance weighting in the presence of sub-population shifts [0.0]
トレーニングデータとテストデータの間の分散シフトは、機械学習モデルの性能を著しく損なう可能性がある。トレーニングデータの有限標本サイズによる推定モデルのばらつきの増大を無視するため,既存の重み付けは準最適であると主張する。重みとモデルパラメータを同時に最適化する二段階最適化手法を提案する。
論文参考訳（メタデータ） (2024-10-18T09:21:10Z)
Generative Principal Component Regression via Variational Inference [2.4415762506639944]
適切な操作を設計するための1つのアプローチは、予測モデルの重要な特徴をターゲットとすることである。我々は,そのような情報を潜在空間で表現する,教師付き変分オートエンコーダ(SVAE)に基づく新しい目的を開発する。シミュレーションでは,gPCRは通常のPCRやSVAEと比較して,操作時のターゲット選択を劇的に改善することを示した。
論文参考訳（メタデータ） (2024-09-03T22:38:55Z)
Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications [0.0]
本研究では,合成データを用いたモデル適応と一般化について検討する。我々は、データ類似性を評価するために、Kullback-Leiblerの発散、Jensen-Shannon距離、Mahalanobis距離などの量的尺度を用いる。本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,あるいは高誤差の「補間体制」が分布変化とモデル不確実性を評価するための補完的手法を提供することを示唆している。
論文参考訳（メタデータ） (2024-05-03T10:05:31Z)
Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文参考訳（メタデータ） (2023-10-03T17:37:52Z)
Understanding Calibration of Deep Neural Networks for Medical Image Classification [3.461503547789351]
本研究では,異なるトレーニング体制下でのモデル性能とキャリブレーションについて検討する。本研究は,完全教師付きトレーニングと,移動学習を伴わない回転型自己教師方式について考察する。本研究では,重み分布や学習表現の類似性などの要因が,モデルで観測されるキャリブレーション傾向と相関していることを明らかにする。
論文参考訳（メタデータ） (2023-09-22T18:36:07Z)
Characterizing Out-of-Distribution Error via Optimal Transport [15.284665509194134]
ラベルなしでOODデータ上でモデルの性能を予測する方法は、機械学習の安全性にとって重要である。最適輸送理論を利用してモデル性能を推定する新しい手法を提案する。提案手法は既存の最先端手法よりも最大3倍低い予測誤差で大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T01:37:13Z)
Vector-Based Data Improves Left-Right Eye-Tracking Classifier Performance After a Covariate Distributional Shift [0.0]
我々は、より堅牢なベンチマークを作成するために、EEG-ETデータ収集のための微粒なデータアプローチを提案する。我々は、粗粒データと細粒データの両方を利用して機械学習モデルを訓練し、類似/異なる分布パターンのデータでテストした場合の精度を比較した。その結果、細粒度ベクトルベースでトレーニングされたモデルは、粗粒度二分分類されたデータでトレーニングされたモデルよりも分布シフトの影響を受けにくいことがわかった。
論文参考訳（メタデータ） (2022-07-31T16:27:50Z)
Density-Aware Personalized Training for Risk Prediction in Imbalanced Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。実世界の医療データセットにおけるモデルの性能向上を実証する。
論文参考訳（メタデータ） (2022-07-23T00:39:53Z)
Undersmoothing Causal Estimators with Generative Trees [0.0]
観察データから個別に治療効果を推定することで、標的となる介入の可能性を解き放つことができる。しかし、観測データからこれらの効果を推測することは困難である。本稿では,モデルの不特定に対処する新しい生成木に基づくアプローチについて検討する。
論文参考訳（メタデータ） (2022-03-16T11:59:38Z)
FairIF: Boosting Fairness in Deep Learning via Influence Functions with Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。 FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文参考訳（メタデータ） (2022-01-15T05:14:48Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Causal Effect Variational Autoencoder with Uniform Treatment [50.895390968371665]
因果効果変動オートエンコーダ(CEVAE)をトレーニングし、観察処理データから結果を予測する。均一処理変分オートエンコーダ (UTVAE) は, 重要サンプリングを用いて均一な処理分布を訓練する。
論文参考訳（メタデータ） (2021-11-16T17:40:57Z)
Accuracy on the Line: On the Strong Correlation Between Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文参考訳（メタデータ） (2021-07-09T19:48:23Z)
Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文参考訳（メタデータ） (2021-07-07T15:50:18Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)
Unlabelled Data Improves Bayesian Uncertainty Calibration under Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文参考訳（メタデータ） (2020-06-26T13:50:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。