論文の概要: Random forests for binary geospatial data
- arxiv url: http://arxiv.org/abs/2302.13828v2
- Date: Thu, 06 Feb 2025 01:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:30:16.007446
- Title: Random forests for binary geospatial data
- Title(参考訳): 二元地理空間データのためのランダムフォレスト
- Authors: Arkajyoti Saha, Abhirup Datta,
- Abstract要約: 既存のバイナリデータに対するランダムフォレストの実装では、地理空間や時系列設定に共通するデータ相関を明示的に説明することはできない。
最近の研究は、一般化最小二乗損失(GLS)を用いた空間共分散を含むランダム森林(RF)をRF-GLSに拡張している。
二進データの場合、GLS損失はGiniの不純物測度の拡張であり、後者は通常の最小二乗損失(OLS)と全く同じである。
一般化された第1段階からの平均関数のRF-GLS推定を組み込む新しいリンク変換手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The manuscript develops new method and theory for non-linear regression for binary dependent data using random forests. Existing implementations of random forests for binary data cannot explicitly account for data correlation common in geospatial and time-series settings. For continuous outcomes, recent work has extended random forests (RF) to RF-GLS that incorporate spatial covariance using the generalized least squares (GLS) loss. However, adoption of this idea for binary data is challenging due to the use of the Gini impurity measure in classification trees, which has no known extension to model dependence. We show that for binary data, the GLS loss is also an extension of the Gini impurity measure, as the latter is exactly equivalent to the ordinary least squares (OLS) loss. This justifies using RF-GLS for non-parametric mean function estimation for binary dependent data. We then consider the special case of generalized mixed effects models, the traditional statistical model for binary geospatial data, which models the spatial random effects as a Gaussian process (GP). We propose a novel link-inversion technique that embeds the RF-GLS estimate of the mean function from the first step within the generalized mixed effects model framework, enabling estimation of non-linear covariate effects and offering spatial predictions. We establish consistency of our method, RF-GP, for both mean function and covariate effect estimation. The theory holds for a general class of stationary absolutely regular dependent processes that includes common choices like Gaussian processes with Mat\'ern or compactly supported covariances and autoregressive processes. The theory relaxes the common assumption of additive mean functions and accounts for the non-linear link. We demonstrate that RF-GP outperforms competing methods for estimation and prediction in both simulated and real-world data.
- Abstract(参考訳): ランダムフォレストを用いた2値依存データに対する非線形回帰の新しい手法と理論を開発した。
既存のバイナリデータに対するランダムフォレストの実装では、地理空間や時系列設定で共通するデータ相関を明示的に説明することはできない。
連続的な結果を得るために、最近の研究は、一般化最小二乗損失(GLS)を用いた空間共分散を含むランダム森林(RF)をRF-GLSに拡張した。
しかし、このアイデアをバイナリデータに適用することは、モデル依存の既知の拡張を持たない分類木にジニ不純物測度を用いることによって困難である。
二進データの場合、GLS損失はGiniの不純物測度の拡張であり、後者は通常の最小二乗損失(OLS)と全く同じである。
これは、バイナリ依存データに対する非パラメトリック平均関数推定にRF-GLSを用いることを正当化する。
次に、空間ランダム効果をガウス過程(GP)としてモデル化する二元空間データに対する従来の統計モデルである一般化混合効果モデルの特別な場合を考える。
一般化された混合効果モデルフレームワークにおいて、RF-GLS平均関数推定を第1段階から組み込んで、非線形共変量効果の推定と空間予測を可能にする新しいリンク・インバージョン手法を提案する。
我々は,平均関数と共変量効果推定の両方に対して,提案手法RF-GPの整合性を確立する。
この理論は、Mat\'ernによるガウス過程やコンパクトに支持された共分散や自己回帰過程のような共通の選択を含む、定常絶対正則な従属過程の一般的なクラスに当てはまる。
この理論は加法平均関数の一般的な仮定を緩和し、非線形リンクを説明できる。
RF-GPはシミュレーションデータと実世界のデータの両方において、推定と予測の競合する手法より優れていることを示す。
関連論文リスト
- Robust Gaussian Processes via Relevance Pursuit [17.39376866275623]
本稿では,データポイント固有ノイズレベルを推定することにより,スパースアウトレーヤに対するロバスト性を実現するGPモデルを提案する。
我々は,データポイント固有ノイズ分散において,関連する対数限界確率が強く抑制されるようなパラメータ化が可能であることを,驚くべきことに示している。
論文 参考訳(メタデータ) (2024-10-31T17:59:56Z) - Sparse Variational Contaminated Noise Gaussian Process Regression with Applications in Geomagnetic Perturbations Forecasting [4.675221539472143]
大規模なデータセットに正規ノイズが汚染されたスパースガウス過程回帰モデルを適用するためのスケーラブルな推論アルゴリズムを提案する。
提案手法は, 人工ニューラルネットワークベースラインと比較して, 類似のカバレッジと精度の予測間隔が短いことを示す。
論文 参考訳(メタデータ) (2024-02-27T15:08:57Z) - Gaussian Graphical Models as an Ensemble Method for Distributed Gaussian
Processes [8.4159776055506]
我々はガウスの専門家の予測をガウス図形モデル(GGM)により集約する新しいアプローチを提案する。
まず、予測最大化(EM)アルゴリズムを用いて、潜伏変数と観測変数の合同分布を推定する。
我々の新しい手法は他の最先端のDGP手法よりも優れている。
論文 参考訳(メタデータ) (2022-02-07T15:22:56Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z) - Non-Gaussian Gaussian Processes for Few-Shot Regression [71.33730039795921]
乱変数ベクトルの各成分上で動作し,パラメータを全て共有する可逆なODEベースのマッピングを提案する。
NGGPは、様々なベンチマークとアプリケーションに対する競合する最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2021-10-26T10:45:25Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z) - Random Forests for dependent data [1.5469452301122173]
本稿では,RFの新たな拡張であるRF-GLSを提案する。
この拡張の鍵は、大域的OLS最適化として回帰木における局所的な決定の等価表現である。
RF-GLSによるRFの予測と予測の精度向上を実験的に実証した。
論文 参考訳(メタデータ) (2020-07-30T12:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。