論文の概要: Clustered random forests with correlated data for optimal estimation and inference under potential covariate shift
- arxiv url: http://arxiv.org/abs/2503.12634v1
- Date: Sun, 16 Mar 2025 20:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:41.222528
- Title: Clustered random forests with correlated data for optimal estimation and inference under potential covariate shift
- Title(参考訳): 潜在共変量シフト下での最適推定と推定のための相関データを持つ群集ランダム林
- Authors: Elliot H. Young, Peter Bühlmann,
- Abstract要約: 我々はクラスタ内の依存を示す独立したグループから生じるランダムなデータに対するランダムなフォレストアルゴリズムであるClustered Random Forestsを開発した。
集団化されたランダム林を構成する各決定木の葉回り予測は、重み付き最小二乗推定器の形を取る。
伐採された無作為林は、特定の樹木分割基準に対して、ポイントワイド条件の平均推定に最適なミニマックスレートを示す。
- 参考スコア(独自算出の注目度): 4.13592995550836
- License:
- Abstract: We develop Clustered Random Forests, a random forests algorithm for clustered data, arising from independent groups that exhibit within-cluster dependence. The leaf-wise predictions for each decision tree making up clustered random forests takes the form of a weighted least squares estimator, which leverage correlations between observations for improved prediction accuracy. Clustered random forests are shown for certain tree splitting criteria to be minimax rate optimal for pointwise conditional mean estimation, while being computationally competitive with standard random forests. Further, we observe that the optimality of a clustered random forest, with regards to how (population level) optimal weights are chosen within this framework i.e. those that minimise mean squared prediction error, vary under covariate distribution shift. In light of this, we advocate weight estimation to be determined by a user-chosen covariate distribution with respect to which optimal prediction or inference is desired. This highlights a key difference in behaviour, between correlated and independent data, with regards to nonparametric conditional mean estimation under covariate shift. We demonstrate our theoretical findings numerically in a number of simulated and real-world settings.
- Abstract(参考訳): 我々はクラスタ内の依存を示す独立したグループから生じるランダムなデータに対するランダムなフォレストアルゴリズムであるClustered Random Forestsを開発した。
集団化されたランダム林を構成する各決定木の葉次予測は、観測間の相関を利用して予測精度を向上する重み付き最小二乗推定器の形を取る。
クラスタ化されたランダム林は、標準的なランダム林と計算的に競合する一方で、ポイントワイド条件の平均推定に最適な最小値の樹木分割基準を示す。
さらに, 群集林の最適性は, 個体群レベルでの最適重み選択の仕方, すなわち, 平均二乗予測誤差を最小化する場合は, 共変量分布シフトによって異なることが観察された。
これを踏まえて、最適な予測や推測が望まれるユーザ・センサ共変量分布によって決定される重み推定を提唱する。
これは共変量シフトの下での非パラメトリック条件平均推定に関して、相関データと独立データの間の行動における重要な違いを浮き彫りにする。
我々は,シミュレーションと実世界のいくつかの環境において,理論的知見を数値的に示す。
関連論文リスト
- Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores [52.92618442300405]
有限サンプルにおいて、正確に分布のない条件付きカバレッジを達成することは不可能である。
本稿では,最も重要となる範囲を対象とするコンフォメーション予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-17T12:01:56Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Statistical Advantages of Oblique Randomized Decision Trees and Forests [0.0]
リッジ関数のフレキシブル次元縮小モデルクラスに対して一般化誤差と収束率を求める。
軸方向のモンドリアン木のリスクに対する低い境界は、これらの線形次元減少モデルに対してこれらの推定値が最適であることを示す。
論文 参考訳(メタデータ) (2024-07-02T17:35:22Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Distributional Gradient Boosting Machines [77.34726150561087]
私たちのフレームワークはXGBoostとLightGBMをベースにしています。
我々は,このフレームワークが最先端の予測精度を実現することを示す。
論文 参考訳(メタデータ) (2022-04-02T06:32:19Z) - On Uncertainty Estimation by Tree-based Surrogate Models in Sequential
Model-based Optimization [13.52611859628841]
予測不確実性推定の観点から,ランダム化木の様々なアンサンブルを再検討し,その挙動について検討する。
BwO林と呼ばれる無作為な樹木のアンサンブルを構築するための新しい手法を提案する。
実験により,既存の樹木モデルに対するBwO林の有効性と性能について様々な状況で検証した。
論文 参考訳(メタデータ) (2022-02-22T04:50:37Z) - On Variance Estimation of Random Forests [0.0]
本稿では,不完全U-統計量に基づく不偏分散推定器を開発する。
我々は,計算コストを増大させることなく,より低いバイアスとより正確な信頼区間のカバレッジを評価できることを示した。
論文 参考訳(メタデータ) (2022-02-18T03:35:47Z) - Treeging [0.0]
木組みは回帰木の柔軟な平均構造と、アンサンブル予測アルゴリズムのベース学習者へのクリグの共分散に基づく予測戦略を組み合わせる。
本研究では,空間及び時空シミュレーションシナリオの網羅的かつ広範囲な電池を横断するツリーングの予測精度について検討した。
論文 参考訳(メタデータ) (2021-10-03T17:48:18Z) - RFpredInterval: An R Package for Prediction Intervals with Random
Forests and Boosted Forests [0.0]
我々は、ランダムな森林や森林の増生を伴う予測区間を構築するために、16の手法を統合した包括的RパッケージRFpredIntervalを開発した。
このパッケージに実装された手法は,Roy と Larocque (2020) が提案したランダムな森林で予測間隔を生成するために,PRBFと15の異なる変種で予測間隔を構築する新しい方法である。
その結果,提案手法は競争力が高く,世界規模では競合手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-15T15:27:50Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。