論文の概要: Predicting into unknown space? Estimating the area of applicability of
spatial prediction models
- arxiv url: http://arxiv.org/abs/2005.07939v1
- Date: Sat, 16 May 2020 10:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 12:47:51.742499
- Title: Predicting into unknown space? Estimating the area of applicability of
spatial prediction models
- Title(参考訳): 未知の空間への予測?
空間予測モデルの適用範囲の推定
- Authors: Hanna Meyer and Edzer Pebesma
- Abstract要約: モデルのクロスバリデーションエラーが適用される領域として定義する「適用可能性の領域」(AOA)を記述した方法論を提案する。
シミュレーションデータを用いて理想的なしきい値を検証し、AOA内の予測誤差とモデルのクロスバリデーション誤差を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive modelling using machine learning has become very popular for
spatial mapping of the environment. Models are often applied to make
predictions far beyond sampling locations where new geographic locations might
considerably differ from the training data in their environmental properties.
However, areas in the predictor space without support of training data are
problematic. Since the model has no knowledge about these environments,
predictions have to be considered uncertain.
Estimating the area to which a prediction model can be reliably applied is
required. Here, we suggest a methodology that delineates the "area of
applicability" (AOA) that we define as the area, for which the cross-validation
error of the model applies. We first propose a "dissimilarity index" (DI) that
is based on the minimum distance to the training data in the predictor space,
with predictors being weighted by their respective importance in the model. The
AOA is then derived by applying a threshold based on the DI of the training
data where the DI is calculated with respect to the cross-validation strategy
used for model training. We test for the ideal threshold by using simulated
data and compare the prediction error within the AOA with the cross-validation
error of the model. We illustrate the approach using a simulated case study.
Our simulation study suggests a threshold on DI to define the AOA at the .95
quantile of the DI in the training data. Using this threshold, the prediction
error within the AOA is comparable to the cross-validation RMSE of the model,
while the cross-validation error does not apply outside the AOA. This applies
to models being trained with randomly distributed training data, as well as
when training data are clustered in space and where spatial cross-validation is
applied.
We suggest to report the AOA alongside predictions, complementary to
validation measures.
- Abstract(参考訳): 機械学習を用いた予測モデリングは環境の空間マッピングに非常に人気がある。
モデルは、新しい地理的位置が環境特性のトレーニングデータと大きく異なる可能性のある場所のサンプリング以上の予測を行うためにしばしば用いられる。
しかし、トレーニングデータをサポートせずに予測空間内の領域が問題となる。
モデルにはこれらの環境に関する知識がないため、予測は不確かである必要がある。
予測モデルを確実に適用可能な領域を推定する必要がある。
ここでは、モデルのクロスバリデーションエラーが適用される領域として定義する「適用可能性の領域」(AOA)を記述した方法論を提案する。
まず,予測者空間におけるトレーニングデータとの最小距離に基づく「異種性指標」(di)を提案し,予測者はモデルにおける各重要度によって重み付けされる。
次に、モデルトレーニングに用いるクロスバリデーション戦略に対してDIを算出するトレーニングデータのDIに基づいてしきい値を適用することにより、AOAを導出する。
シミュレーションデータを用いて理想的なしきい値を検証し、AOA内の予測誤差とモデルのクロスバリデーション誤差を比較する。
本手法をシミュレートしたケーススタディを用いて示す。
シミュレーションでは、トレーニングデータ中のDIの.95量子度でAOAを定義するためのDIのしきい値が示唆されている。
このしきい値を用いて、AOA内の予測誤差はモデルのクロスバリデーションRMSEに匹敵するが、クロスバリデーションエラーはAOAの外部には適用されない。
これは、ランダムに分散したトレーニングデータでトレーニングされているモデルや、トレーニングデータが空間内でクラスタ化され、空間的クロスバリデーションが適用される場合に適用される。
我々は、AOAを予測と共に報告し、検証措置を補完することを提案する。
関連論文リスト
- On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Predictive Performance Test based on the Exhaustive Nested Cross-Validation for High-dimensional data [7.62566998854384]
クロスバリデーションは、予測誤差の推定、正規化パラメータのチューニング、最も適切な予測モデルの選択など、いくつかのタスクに使用される。
K-foldクロスバリデーションは一般的なCV法であるが、その制限はリスク推定がデータの分割に大きく依存していることである。
本研究は, 完全ネスト型クロスバリデーションに基づく新たな予測性能試験と有効信頼区間を提案する。
論文 参考訳(メタデータ) (2024-08-06T12:28:16Z) - Out of Distribution Detection via Domain-Informed Gaussian Process State
Space Models [22.24457254575906]
ロボットが見えないシナリオを安全にナビゲートするためには、オンラインのトレーニング外配布(OoD)状況を正確に検出することが重要である。
我々は,既存のドメイン知識をカーネルに埋め込む新しい手法を提案し,また(ii)遅延水平予測に基づくOoDオンラインランタイムモニタを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:02:42Z) - Transfer Learning with Uncertainty Quantification: Random Effect
Calibration of Source to Target (RECaST) [1.8047694351309207]
我々はRECaSTと呼ばれる伝達学習に基づくモデル予測のための統計的枠組みを開発する。
線形モデル間の伝達学習におけるRECaST手法の有効性を数学的・実験的に実証した。
シミュレーション研究における本手法の性能と実際の病院データへの適用について検討する。
論文 参考訳(メタデータ) (2022-11-29T19:39:47Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Spatial machine-learning model diagnostics: a model-agnostic
distance-based approach [91.62936410696409]
本研究は,空間予測誤差プロファイル (SPEP) と空間変数重要度プロファイル (SVIP) を,新しいモデルに依存しない評価・解釈ツールとして提案する。
統計学的手法、線形モデル、ランダムフォレスト、ハイブリッドアルゴリズムのSPEPとSVIPは、顕著な差異と関連する類似性を示している。
この新しい診断ツールは空間データ科学のツールキットを充実させ、MLモデルの解釈、選択、設計を改善する可能性がある。
論文 参考訳(メタデータ) (2021-11-13T01:50:36Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Estimating the Prediction Performance of Spatial Models via Spatial
k-Fold Cross Validation [1.7205106391379026]
機械学習では、モデルの性能を評価するときにデータが独立していると仮定することが多い。
空間自己相関(spatial autocorrelation, SAC)は、標準クロスバリデーション(CV)法により、楽観的に偏りのある予測性能推定を生成する。
本研究では,SACによる楽観的バイアスを伴わないモデル予測性能を評価するため,空間k-fold Cross Validation (SKCV) と呼ばれるCV法の改良版を提案する。
論文 参考訳(メタデータ) (2020-05-28T19:55:18Z) - TraDE: Transformers for Density Estimation [101.20137732920718]
TraDEは自己回帰密度推定のための自己アテンションに基づくアーキテクチャである。
本稿では, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおける雑音に対する頑健性などのタスクについて述べる。
論文 参考訳(メタデータ) (2020-04-06T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。