論文の概要: Correcting sampling biases via importancereweighting for spatial
modeling
- arxiv url: http://arxiv.org/abs/2309.04824v1
- Date: Sat, 9 Sep 2023 15:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 16:10:12.517939
- Title: Correcting sampling biases via importancereweighting for spatial
modeling
- Title(参考訳): 空間モデリングのための重み付けによるサンプリングバイアスの補正
- Authors: Boris Prokhorov, Diana Koldasbayeva, Alexey Zaytsev
- Abstract要約: 機械学習モデルでは、分布バイアスによってエラーの見積もりが複雑になることが多い。
本稿では,重要サンプリングの考え方に基づいて,対象誤差の偏りのない推定値を求める手法を提案する。
- 参考スコア(独自算出の注目度): 2.6862667248315386
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In machine learning models, the estimation of errors is often complex due to
distribution bias, particularly in spatial data such as those found in
environmental studies. We introduce an approach based on the ideas of
importance sampling to obtain an unbiased estimate of the target error. By
taking into account difference between desirable error and available data, our
method reweights errors at each sample point and neutralizes the shift.
Importance sampling technique and kernel density estimation were used for
reweighteing. We validate the effectiveness of our approach using artificial
data that resemble real-world spatial datasets. Our findings demonstrate
advantages of the proposed approach for the estimation of the target error,
offering a solution to a distribution shift problem. Overall error of
predictions dropped from 7% to just 2% and it gets smaller for larger samples.
- Abstract(参考訳): 機械学習モデルでは、特に環境研究に見られるような空間データにおいて、分布バイアスによる誤差の推定は複雑であることが多い。
本稿では,目標誤差の偏りのない推定を行うために,重要サンプリングの考え方に基づく手法を提案する。
所望の誤差と利用可能なデータの違いを考慮して,各サンプル点における誤差を重み付けし,シフトを中和する。
重み付けには重要サンプリング法と核密度推定法が用いられた。
実世界の空間データセットに類似した人工データを用いたアプローチの有効性を検証する。
本研究は,分布シフト問題に対する解法として,対象誤差の推定に提案手法の利点を示すものである。
全体の予測誤差は7%から2%に減少し、より大きなサンプルでは小さくなった。
関連論文リスト
- Adaptive Deviation Learning for Visual Anomaly Detection with Data Contamination [20.4008901760593]
そこで本研究では,偏差学習を応用して,異常スコアをエンドツーエンドに計算する手法を提案する。
提案手法は競合する手法を超越し,データ汚染の存在下での安定性とロバスト性を示す。
論文 参考訳(メタデータ) (2024-11-14T16:10:15Z) - Improving Distribution Alignment with Diversity-based Sampling [0.0]
ドメインシフトは機械学習においてユビキタスであり、実際のデータにデプロイすると、モデルのパフォーマンスが大幅に低下する可能性がある。
本稿では,各サンプル小バッチの多様性を誘導することにより,これらの推定値を改善することを提案する。
同時にデータのバランスを保ち、勾配のばらつきを低減し、それによってモデルの一般化能力を高める。
論文 参考訳(メタデータ) (2024-10-05T17:26:03Z) - Informed Correctors for Discrete Diffusion Models [32.87362154118195]
モデルで学習した情報を活用することにより、より確実に離散化誤差に対処できる情報修正系を提案する。
また,$k$-Gillespie'sも提案する。これは,各モデル評価をよりよく活用するサンプリングアルゴリズムで,$tau$-leapingの速度と柔軟性を引き続き享受する。
いくつかの実・合成データセットにおいて,情報付き修正器を用いた$k$-Gillespieは,より低い計算コストで高い品質のサンプルを確実に生成することを示す。
論文 参考訳(メタデータ) (2024-07-30T23:29:29Z) - Sharp analysis of out-of-distribution error for "importance-weighted" estimators in the overparameterized regime [5.653716495767272]
我々は「重要重み」を組み込んだコスト感受性補間解の分布内および分布外テスト誤差を解析する。
我々の分析は上界と下界を一致させて鋭く、データ次元に関する仮定を著しく弱めている。
誤差の特徴は重みの選択にも当てはまり、最悪の場合のロバスト性から分布シフト、平均精度の間には新たなトレードオフが浮かび上がっています。
論文 参考訳(メタデータ) (2024-05-10T15:43:17Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Fast and Accurate Importance Weighting for Correcting Sample Bias [4.750521042508541]
本稿では,ニューラルネットワークを用いてインスタンス重みを予測し,大規模データセットにスケールする,新たな重み付けアルゴリズムを提案する。
提案手法は,他の重み付け手法と比較して,類似のサンプルバイアス補正性能を維持しつつ,大規模データセット上での計算時間を劇的に短縮することを示す。
論文 参考訳(メタデータ) (2022-09-09T10:01:46Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。