論文の概要: Correcting sampling biases via importance reweighting for spatial
modeling
- arxiv url: http://arxiv.org/abs/2309.04824v2
- Date: Thu, 14 Sep 2023 06:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 17:59:18.652551
- Title: Correcting sampling biases via importance reweighting for spatial
modeling
- Title(参考訳): 空間モデリングのための重み付けによるサンプリングバイアスの補正
- Authors: Boris Prokhorov, Diana Koldasbayeva, Alexey Zaytsev
- Abstract要約: 機械学習モデルでは、分布バイアスによってエラーの見積もりが複雑になることが多い。
本稿では,重要サンプリングの考え方に基づいて,対象誤差の偏りのない推定値を求める手法を提案する。
- 参考スコア(独自算出の注目度): 2.6862667248315386
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In machine learning models, the estimation of errors is often complex due to
distribution bias, particularly in spatial data such as those found in
environmental studies. We introduce an approach based on the ideas of
importance sampling to obtain an unbiased estimate of the target error. By
taking into account difference between desirable error and available data, our
method reweights errors at each sample point and neutralizes the shift.
Importance sampling technique and kernel density estimation were used for
reweighteing. We validate the effectiveness of our approach using artificial
data that resemble real-world spatial datasets. Our findings demonstrate
advantages of the proposed approach for the estimation of the target error,
offering a solution to a distribution shift problem. Overall error of
predictions dropped from 7% to just 2% and it gets smaller for larger samples.
- Abstract(参考訳): 機械学習モデルでは、特に環境研究に見られるような空間データにおいて、分布バイアスによる誤差の推定は複雑であることが多い。
本稿では,目標誤差の偏りのない推定を行うために,重要サンプリングの考え方に基づく手法を提案する。
所望の誤差と利用可能なデータの違いを考慮して,各サンプル点における誤差を重み付けし,シフトを中和する。
重み付けには重要サンプリング法と核密度推定法が用いられた。
実世界の空間データセットに類似した人工データを用いたアプローチの有効性を検証する。
本研究は,分布シフト問題に対する解法として,対象誤差の推定に提案手法の利点を示すものである。
全体の予測誤差は7%から2%に減少し、より大きなサンプルでは小さくなった。
関連論文リスト
- Guaranteed Optimal Generative Modeling with Maximum Deviation from the
Empirical Distribution [0.0]
ジェネレーティブ・モデリング(Generative Modeling)は、科学および産業分野で様々な用途に応用された機械学習手法である。
その主な目的は、トレーニングデータから得られた未知の分布から引き出された新しいサンプルをシミュレートし、多様性を確保し、トレーニングデータからのサンプルの複製を避けることである。
本稿では, 実データ生成分布を学習データ生成分布に置き換える誤差は, サンプルサイズが無限大に近づくにつれて, 最適に0に収束する必要があり, トレーニングデータ中の任意の分布複製例から, 学習データ生成分布が十分遠く離れるべきである,という2つの特性を持つ生成モデルのトレーニングに関する理論的知見を示す。
論文 参考訳(メタデータ) (2023-07-31T06:11:57Z) - TabADM: Unsupervised Tabular Anomaly Detection with Diffusion Models [5.314466196448187]
本稿では,非教師付き異常検出に有効な拡散型確率モデルを提案する。
本モデルは, 特異な拒絶手法を用いて, サンプルの密度を学習するよう訓練されている。
低密度領域のサンプルとして異常を同定する。
論文 参考訳(メタデータ) (2023-07-23T14:02:33Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Fast and Accurate Importance Weighting for Correcting Sample Bias [4.750521042508541]
本稿では,ニューラルネットワークを用いてインスタンス重みを予測し,大規模データセットにスケールする,新たな重み付けアルゴリズムを提案する。
提案手法は,他の重み付け手法と比較して,類似のサンプルバイアス補正性能を維持しつつ,大規模データセット上での計算時間を劇的に短縮することを示す。
論文 参考訳(メタデータ) (2022-09-09T10:01:46Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。