論文の概要: On the use of adversarial validation for quantifying dissimilarity in geospatial machine learning prediction
- arxiv url: http://arxiv.org/abs/2404.12575v1
- Date: Fri, 19 Apr 2024 01:48:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:34:43.272145
- Title: On the use of adversarial validation for quantifying dissimilarity in geospatial machine learning prediction
- Title(参考訳): 地理空間機械学習予測における逆検証を用いた異種性の定量化
- Authors: Yanwen Wang, Mahdi Khodadadzadeh, Raul Zurita-Milla,
- Abstract要約: クロスバリデーションの結果は,サンプルデータと予測位置の相違によって影響を受ける。
本稿では,0から100%の間隔で,データ特徴空間の観点から,そのような相似性を定量化する手法を提案する。
その結果,提案手法は全値範囲の相似性を定量化できることがわかった。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent geospatial machine learning studies have shown that the results of model evaluation via cross-validation (CV) are strongly affected by the dissimilarity between the sample data and the prediction locations. In this paper, we propose a method to quantify such a dissimilarity in the interval 0 to 100%, and from the perspective of the data feature space. The proposed method is based on adversarial validation, which is an approach that can check whether sample data and prediction locations can be separated with a binary classifier. To study the effectiveness and generality of our method, we tested it on a series of experiments based on both synthetic and real datasets and with gradually increasing dissimilarities. Results show that the proposed method can successfully quantify dissimilarity across the entire range of values. Next to this, we studied how dissimilarity affects CV evaluations by comparing the results of random CV and of two spatial CV methods, namely block and spatial+ CV. Our results showed that CV evaluations follow similar patterns in all datasets and predictions: when dissimilarity is low (usually lower than 30%), random CV provides the most accurate evaluation results. As dissimilarity increases, spatial CV methods, especially spatial+ CV, become more and more accurate and even outperforming random CV. When dissimilarity is high (>=90%), no CV method provides accurate evaluations. These results show the importance of considering feature space dissimilarity when working with geospatial machine learning predictions, and can help researchers and practitioners to select more suitable CV methods for evaluating their predictions.
- Abstract(参考訳): 近年の地理空間機械学習研究により,クロスバリデーション(CV)によるモデル評価の結果は,サンプルデータと予測位置の相違により強く影響されていることが示された。
本稿では,データ特徴空間の観点から,0~100%の間隔でそのような相似性を定量化する手法を提案する。
提案手法は,バイナリ分類器を用いてサンプルデータと予測位置を分離できるかどうかを検証可能な,逆検証に基づく。
提案手法の有効性と汎用性を検討するため, 合成データと実データの両方に基づく一連の実験を行い, 相違点が徐々に増大した。
その結果,提案手法は全値範囲の相似性を定量化できることがわかった。
次に,無作為なCVと2つの空間的CV,すなわちブロックと空間的+CVの結果を比較して,差分性がCV評価に与える影響について検討した。
その結果,すべてのデータセットと予測において,CV評価は類似したパターンに従うことが明らかとなった。
相違が増加するにつれて、空間的CV法、特に空間的+CV法はより正確になり、ランダムなCVよりも優れる。
相同性が高い場合(>=90%)、CV法では正確な評価は得られない。
これらの結果から,地理空間的機械学習予測における特徴空間の相違を考慮することの重要性が示唆された。
関連論文リスト
- Is K-fold cross validation the best model selection method for Machine
Learning? [0.0]
K-foldクロスバリデーション(K-fold cross-validation)は、機械学習の結果が偶然に生成される可能性を確認する最も一般的なアプローチである。
K-fold CVと実際の誤差(K-fold CUBV)のアッパーバウンドに基づく新規な試験が構成される。
論文 参考訳(メタデータ) (2024-01-29T18:46:53Z) - A Novel Dataset for Evaluating and Alleviating Domain Shift for Human
Detection in Agricultural Fields [59.035813796601055]
トレーニングセットの分布外のデータに展開した場合、ドメインシフトが、よく知られたオブジェクト検出データセット上で訓練された人間の検出モデルに与える影響を評価する。
我々は、ロボットティプラットフォームを用いて、農業ロボット応用の文脈で収集されたOpenDR Humans in Fieldデータセットを紹介した。
論文 参考訳(メタデータ) (2022-09-27T07:04:28Z) - Random projections and Kernelised Leave One Cluster Out
Cross-Validation: Universal baselines and evaluation tools for supervised
machine learning for materials properties [10.962094053749093]
1つのクラスタ・アウト・クロス・バリデーション(LOCO-CV)は、これまで目に見えない材料群を予測するアルゴリズムの性能を測定する方法として導入された。
コンポジションベース表現の徹底的な比較を行い,カーネル近似関数を用いてLOCO-CVアプリケーションの拡張を行う方法について検討する。
テストされたほとんどのタスクにおいて、ドメイン知識は機械学習のパフォーマンスを向上しないが、バンドギャップ予測は例外である。
論文 参考訳(メタデータ) (2022-06-17T15:39:39Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Confidence intervals for the Cox model test error from cross-validation [91.3755431537592]
クロスバリデーション(CV)は、モデルの試験誤差を推定する統計学習において最も広く使われている手法の1つである。
CVからの推定値を用いたテストエラーの標準信頼区間は、名目レベル以下である可能性がある。
この問題の1つの方法は、ネストされたCVを使って予測誤差の平均2乗誤差を推定することである。
論文 参考訳(メタデータ) (2022-01-26T06:40:43Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Targeted Cross-Validation [23.689101487016266]
一般の重み付き$L$損失に基づいてモデルやプロシージャを選択するためのターゲットクロスバリデーション(TCV)を提案する。
我々は、TCVが$L$損失の下で最高のパフォーマンス候補を選択することに一貫性があることを示します。
本研究では,サンプルサイズの変化に応じて最適な候補を切り替えることにより,選択整合性の概念を広げる。
論文 参考訳(メタデータ) (2021-09-14T19:53:18Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z) - Approximate Cross-Validation for Structured Models [20.79997929155929]
金標準評価技術は構造化クロスバリデーション(CV)である
しかし、すでに拡張された学習アルゴリズムを何度も再実行する必要があるため、ここでのCVは違法に遅くなる可能性がある。
従来の研究では、近似クロスバリデーション(ACV)法が高速かつ確実な代替手段であることが示された。
論文 参考訳(メタデータ) (2020-06-23T00:06:03Z) - Estimating the Prediction Performance of Spatial Models via Spatial
k-Fold Cross Validation [1.7205106391379026]
機械学習では、モデルの性能を評価するときにデータが独立していると仮定することが多い。
空間自己相関(spatial autocorrelation, SAC)は、標準クロスバリデーション(CV)法により、楽観的に偏りのある予測性能推定を生成する。
本研究では,SACによる楽観的バイアスを伴わないモデル予測性能を評価するため,空間k-fold Cross Validation (SKCV) と呼ばれるCV法の改良版を提案する。
論文 参考訳(メタデータ) (2020-05-28T19:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。