論文の概要: Aligning Validation with Deployment: Target-Weighted Cross-Validation for Spatial Prediction
- arxiv url: http://arxiv.org/abs/2603.29981v1
- Date: Tue, 31 Mar 2026 16:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.868581
- Title: Aligning Validation with Deployment: Target-Weighted Cross-Validation for Spatial Prediction
- Title(参考訳): 配置による適応検証:空間予測のための目標重み付きクロスバリデーション
- Authors: Alexander Brenning, Thomas Suesse,
- Abstract要約: クロスバリデーション(CV)は、独立したテストデータが利用できない場合の予測リスクを推定するために一般的に使用される。
空間予測や構造化データによる他の設定では、この仮定は頻繁に違反され、デプロイメントリスクのバイアスのある見積もりにつながります。
本稿では,検証とデプロイメントタスク分布の相違を考慮に入れた,デプロイメントリスクの推定ツールであるTarget-Weighted CVを提案する。
- 参考スコア(独自算出の注目度): 45.94145742195786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-validation (CV) is commonly used to estimate predictive risk when independent test data are unavailable. Its validity depends on the assumption that validation tasks are sampled from the same distribution as prediction tasks encountered during deployment. In spatial prediction and other settings with structured data, this assumption is frequently violated, leading to biased estimates of deployment risk. We propose Target-Weighted CV (TWCV), an estimator of deployment risk that accounts for discrepancies between validation and deployment task distributions, thus accounting for (1) covariate shift and (2) task-difficulty shift. We characterize prediction tasks by descriptors such as covariates and spatial configuration. TWCV assigns weights to validation losses such that the weighted empirical distribution of validation tasks matches the corresponding distribution over a target domain. The weights are obtained via calibration weighting, yielding an importance-weighted estimator that targets deployment risk. Since TWCV requires adequate coverage of the deployment distribution's support, we combine it with spatially buffered resampling that diversifies the task difficulty distribution. In a simulation study, conventional as well as spatial estimators exhibit substantial bias depending on sampling, whereas buffered TWCV remains approximately unbiased across scenarios. A case study in environmental pollution mapping further confirms that discrepancies between validation and deployment task distributions can affect performance assessment, and that buffered TWCV better reflects the prediction task over the target domain. These results establish task distribution mismatch as a primary source of CV bias in spatial prediction and show that calibration weighting combined with a suitable validation task generator provides a viable approach to estimating predictive risk under dataset shift.
- Abstract(参考訳): クロスバリデーション(CV)は、独立したテストデータが利用できない場合の予測リスクを推定するために一般的に使用される。
その妥当性は、検証タスクがデプロイメント中に遭遇する予測タスクと同じ分布からサンプリングされるという仮定に依存する。
空間予測や構造化データによる他の設定では、この仮定は頻繁に違反され、デプロイメントリスクのバイアスのある見積もりにつながります。
本稿では,(1)共変量シフトと(2)タスク差シフトを考慮し,検証とデプロイメントタスク分布の相違を考慮に入れた,デプロイメントリスクの推定手法であるTWCVを提案する。
共変量や空間構成などの記述子による予測タスクの特徴付けを行う。
TWCVは、重み付けされた検証タスクの実験的分布が対象領域上の対応する分布と一致するような検証損失に重みを割り当てる。
重み付けはキャリブレーション重み付けによって得られ、デプロイリスクを目標とする重み付け推定器が得られる。
TWCVは、デプロイメントの配信支援を適切にカバーする必要があるため、タスクの難易度分布を多様化する空間的にバッファリングされた再サンプリングと組み合わせる。
シミュレーション実験では,従来の推定値と空間推定値の差はサンプリングによって大きく異なるが,バッファリングされたTWCVはシナリオ間でほぼ偏りが保たれている。
環境汚染マッピングにおけるケーススタディでは、検証とデプロイメントタスクの分布の相違が性能評価に影響を及ぼし、バッファリングされたTWCVが目標領域上の予測タスクを反映していることが確認されている。
これらの結果は,空間的予測におけるCVバイアスの一次源としてタスク分布ミスマッチを確立し,キャリブレーション重み付けと適切な検証タスクジェネレータを組み合わせることで,データセットシフト時の予測リスクを推定できることを示す。
関連論文リスト
- Generalization and Informativeness of Weighted Conformal Risk Control Under Covariate Shift [40.43703709267958]
重み付き共形リスク制御(W-CRC)は、トレーニングフェーズ中に収集されたデータを使用して、ポイント予測をテスト時に有効なリスク保証を備えた予測セットに変換する。
W-CRCは統計的信頼性を提供するが、その効率(予測セットのサイズによって測定される)はテスト時にのみ評価できる。
論文 参考訳(メタデータ) (2025-01-20T11:26:36Z) - Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Calibrated Adversarial Refinement for Stochastic Semantic Segmentation [5.849736173068868]
本稿では,各予測に関連付けられた確率が,その根拠となる真偽の正しさを反映する,セマンティックマップ上の校正された予測分布を学習するための戦略を提案する。
マルチグレーダのLIDCデータセットと、注入曖昧さのあるCityscapesデータセットに対して、最先端の成果を達成し、アプローチの汎用性と堅牢性を実証する。
本研究は,おもちゃの回帰データセットを用いて実験することにより,校正された予測分布の学習を必要とする他のタスクにコア設計を適用することができることを示す。
論文 参考訳(メタデータ) (2020-06-23T16:39:59Z) - Estimating the Prediction Performance of Spatial Models via Spatial
k-Fold Cross Validation [1.7205106391379026]
機械学習では、モデルの性能を評価するときにデータが独立していると仮定することが多い。
空間自己相関(spatial autocorrelation, SAC)は、標準クロスバリデーション(CV)法により、楽観的に偏りのある予測性能推定を生成する。
本研究では,SACによる楽観的バイアスを伴わないモデル予測性能を評価するため,空間k-fold Cross Validation (SKCV) と呼ばれるCV法の改良版を提案する。
論文 参考訳(メタデータ) (2020-05-28T19:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。