論文の概要: Statistical Advantages of Oblique Randomized Decision Trees and Forests
- arxiv url: http://arxiv.org/abs/2407.02458v1
- Date: Tue, 2 Jul 2024 17:35:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:27:11.811146
- Title: Statistical Advantages of Oblique Randomized Decision Trees and Forests
- Title(参考訳): 斜めランダム化決定木と森林の統計的利点
- Authors: Eliza O'Reilly,
- Abstract要約: リッジ関数のフレキシブル次元縮小モデルクラスに対して一般化誤差と収束率を求める。
軸方向のモンドリアン木のリスクに対する低い境界は、これらの線形次元減少モデルに対してこれらの推定値が最適であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the statistical advantages of using features comprised of general linear combinations of covariates to partition the data in randomized decision tree and forest regression algorithms. Using random tessellation theory in stochastic geometry, we provide a theoretical analysis of a class of efficiently generated random tree and forest estimators that allow for oblique splits along such features. We call these estimators oblique Mondrian trees and forests, as the trees are generated by first selecting a set of features from linear combinations of the covariates and then running a Mondrian process that hierarchically partitions the data along these features. Generalization error bounds and convergence rates are obtained for the flexible dimension reduction model class of ridge functions (also known as multi-index models), where the output is assumed to depend on a low dimensional relevant feature subspace of the input domain. The results highlight how the risk of these estimators depends on the choice of features and quantify how robust the risk is with respect to error in the estimation of relevant features. The asymptotic analysis also provides conditions on the selected features along which the data is split for these estimators to obtain minimax optimal rates of convergence with respect to the dimension of the relevant feature subspace. Additionally, a lower bound on the risk of axis-aligned Mondrian trees (where features are restricted to the set of covariates) is obtained proving that these estimators are suboptimal for these linear dimension reduction models in general, no matter how the distribution over the covariates used to divide the data at each tree node is weighted.
- Abstract(参考訳): 本研究は,共変数の一般線形結合からなる特徴を用いて,データをランダム化決定木と森林回帰アルゴリズムで分割する,という統計的利点について検討する。
確率幾何学におけるランダムテッセレーション理論を用いて、効率的に生成されたランダムツリーのクラスの理論解析と、そのような特徴に沿った斜め分割を可能にする森林推定器を提供する。
木は、まず、共変数の線形結合から一連の特徴を選択し、次に、それらの特徴に沿ってデータを階層的に分割するモンドリアンプロセスを実行することによって生成される。
一般化誤差境界と収束速度は、入力領域の低次元的特徴部分空間に依存すると仮定されるリッジ関数のフレキシブル次元還元モデルクラス(マルチインデックスモデルとも呼ばれる)に対して得られる。
その結果、これらの推定器のリスクが特徴の選択にどのように依存しているかを明らかにし、関連する特徴の推定における誤差に対するリスクの頑健さを定量化する。
漸近解析はまた、これらの推定器が関連する特徴部分空間の次元に関して収束の最小値を得るためにデータを分割する選択された特徴について条件を与える。
さらに、軸方向のモンドリアン木のリスク(特徴が共変数の集合に制限される)の低い境界は、これらの線形次元減少モデルに対して、各木ノードでデータを分割するのに使用される共変数の分布が重み付けされているかどうかに関わらず、これらの推定器が概して最適であることを示す。
関連論文リスト
- Intrinsic Bayesian Cramér-Rao Bound with an Application to Covariance Matrix Estimation [49.67011673289242]
本稿では, 推定パラメータが滑らかな多様体内にある推定問題に対して, 新たな性能境界を提案する。
これはパラメータ多様体の幾何学と推定誤差測度の本質的な概念を誘導する。
論文 参考訳(メタデータ) (2023-11-08T15:17:13Z) - Prediction Algorithms Achieving Bayesian Decision Theoretical Optimality
Based on Decision Trees as Data Observation Processes [1.2774526936067927]
本稿では,データの背後にあるデータ観測過程を表現するために木を用いる。
我々は、過度な適合に対して頑健な統計的に最適な予測を導出する。
これをマルコフ連鎖モンテカルロ法により解き、ステップサイズは木の後方分布に応じて適応的に調整される。
論文 参考訳(メタデータ) (2023-06-12T12:14:57Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - TreeFlow: Going beyond Tree-based Gaussian Probabilistic Regression [0.0]
ツリーアンサンブルを使うことの利点と柔軟な確率分布をモデル化する能力を組み合わせたツリーベースアプローチであるTreeFlowを紹介した。
提案手法は, 諸量, 特徴量, 目標寸法の異なる回帰ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2022-06-08T20:06:23Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Modelling hetegeneous treatment effects by quantitle local polynomial
decision tree and forest [0.0]
本稿では,2001年のブレイマンの無作為林木(RFT)とWagerらの因果樹に基づいて,非パラメトリック問題のパラメータ化を行う。
我々は,定式規則による定量分類と局所標本の古典的推定を組み合わせた決定木を提案し,この決定木をQLPRT(quantile local linear causal tree)とQLPRF( Forest)と呼ぶ。
論文 参考訳(メタデータ) (2021-11-30T12:02:16Z) - A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds [9.546094657606178]
本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
論文 参考訳(メタデータ) (2021-10-18T21:22:40Z) - Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。
提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文 参考訳(メタデータ) (2020-06-24T17:53:53Z) - Sparse learning with CART [18.351254916713305]
二分木を持つ決定木は、分類木と回帰木(CART)の手法を用いて一般的に構築されている。
本稿では,CART法を用いて構築した回帰木の統計的特性について検討する。
論文 参考訳(メタデータ) (2020-06-07T20:55:52Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。