論文の概要: Estimating the Prediction Performance of Spatial Models via Spatial
k-Fold Cross Validation
- arxiv url: http://arxiv.org/abs/2005.14263v1
- Date: Thu, 28 May 2020 19:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 06:05:55.145468
- Title: Estimating the Prediction Performance of Spatial Models via Spatial
k-Fold Cross Validation
- Title(参考訳): 空間k-foldクロス検証による空間モデルの予測性能の推定
- Authors: Jonne Pohjankukka, Tapio Pahikkala, Paavo Nevalainen, Jukka Heikkonen
- Abstract要約: 機械学習では、モデルの性能を評価するときにデータが独立していると仮定することが多い。
空間自己相関(spatial autocorrelation, SAC)は、標準クロスバリデーション(CV)法により、楽観的に偏りのある予測性能推定を生成する。
本研究では,SACによる楽観的バイアスを伴わないモデル予測性能を評価するため,空間k-fold Cross Validation (SKCV) と呼ばれるCV法の改良版を提案する。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In machine learning one often assumes the data are independent when
evaluating model performance. However, this rarely holds in practise.
Geographic information data sets are an example where the data points have
stronger dependencies among each other the closer they are geographically. This
phenomenon known as spatial autocorrelation (SAC) causes the standard cross
validation (CV) methods to produce optimistically biased prediction performance
estimates for spatial models, which can result in increased costs and accidents
in practical applications. To overcome this problem we propose a modified
version of the CV method called spatial k-fold cross validation (SKCV), which
provides a useful estimate for model prediction performance without optimistic
bias due to SAC. We test SKCV with three real world cases involving open
natural data showing that the estimates produced by the ordinary CV are up to
40% more optimistic than those of SKCV. Both regression and classification
cases are considered in our experiments. In addition, we will show how the SKCV
method can be applied as a criterion for selecting data sampling density for
new research area.
- Abstract(参考訳): 機械学習では、モデル性能を評価する際にデータが独立であると仮定することが多い。
しかし、これはほとんど実践的ではない。
地理的情報データセットは、データポイントが地理的に近付くほど、互いに強い依存関係を持つ例である。
空間自己相関 (sac) として知られるこの現象は、標準クロス検証 (cv) 法によって空間モデルに対する楽観的に偏りのある予測性能を推定し、実際の用途においてコストと事故の増加をもたらす。
そこで本研究では,spatial k-fold cross validation (skcv) と呼ばれるcv法の改良版を提案する。
オープンな自然データを含む実世界の3つのケースでSKCVを試験したところ、通常のCVによる推定値がSKCVよりも最大40%楽観的であることがわかった。
回帰例と分類例の両方が実験で検討されている。
また,新たな研究領域におけるデータサンプリング密度の選択基準としてskcv法をどのように適用できるかを示す。
関連論文リスト
- On the use of adversarial validation for quantifying dissimilarity in geospatial machine learning prediction [1.1470070927586018]
クロスバリデーションの結果は,サンプルデータと予測位置の相違によって影響を受ける。
本稿では,0から100%の間隔で,データ特徴空間の観点から,そのような相似性を定量化する手法を提案する。
その結果,提案手法は全値範囲の相似性を定量化できることがわかった。
論文 参考訳(メタデータ) (2024-04-19T01:48:21Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Confidence intervals for the Cox model test error from cross-validation [91.3755431537592]
クロスバリデーション(CV)は、モデルの試験誤差を推定する統計学習において最も広く使われている手法の1つである。
CVからの推定値を用いたテストエラーの標準信頼区間は、名目レベル以下である可能性がある。
この問題の1つの方法は、ネストされたCVを使って予測誤差の平均2乗誤差を推定することである。
論文 参考訳(メタデータ) (2022-01-26T06:40:43Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Spatial machine-learning model diagnostics: a model-agnostic
distance-based approach [91.62936410696409]
本研究は,空間予測誤差プロファイル (SPEP) と空間変数重要度プロファイル (SVIP) を,新しいモデルに依存しない評価・解釈ツールとして提案する。
統計学的手法、線形モデル、ランダムフォレスト、ハイブリッドアルゴリズムのSPEPとSVIPは、顕著な差異と関連する類似性を示している。
この新しい診断ツールは空間データ科学のツールキットを充実させ、MLモデルの解釈、選択、設計を改善する可能性がある。
論文 参考訳(メタデータ) (2021-11-13T01:50:36Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Model Rectification via Unknown Unknowns Extraction from Deployment
Samples [8.0497115494227]
本稿では, 訓練後のモデル修正を, 教師付き方式で実施することを目的とした, 汎用的なアルゴリズムフレームワークを提案する。
RTSCVは未知の未知(u.u.s)を抽出する
RTSCVは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-08T11:46:19Z) - Approximate Cross-validated Mean Estimates for Bayesian Hierarchical
Regression Models [7.455546102930911]
本稿では,ベイズ階層回帰モデルに対するクロスバリデーション予測手法を提案する。
理論的な結果を提供し、その効果を公開データやシミュレーションで実証する。
論文 参考訳(メタデータ) (2020-11-29T00:00:20Z) - Approximate Cross-Validation for Structured Models [20.79997929155929]
金標準評価技術は構造化クロスバリデーション(CV)である
しかし、すでに拡張された学習アルゴリズムを何度も再実行する必要があるため、ここでのCVは違法に遅くなる可能性がある。
従来の研究では、近似クロスバリデーション(ACV)法が高速かつ確実な代替手段であることが示された。
論文 参考訳(メタデータ) (2020-06-23T00:06:03Z) - Approximate Cross-validation: Guarantees for Model Assessment and
Selection [18.77512692975483]
クロスバリデーション(CV)は、予測モデルの評価と選択のための一般的なアプローチである。
経験的リスク最小化の最近の研究は、トレーニングセット全体からウォームスタートした1つのニュートンで高価なリフィットを近似している。
論文 参考訳(メタデータ) (2020-03-02T00:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。