論文の概要: Sparse learning with CART
- arxiv url: http://arxiv.org/abs/2006.04266v2
- Date: Wed, 18 Nov 2020 21:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 07:54:43.975024
- Title: Sparse learning with CART
- Title(参考訳): CARTによるスパースラーニング
- Authors: Jason M. Klusowski
- Abstract要約: 二分木を持つ決定木は、分類木と回帰木(CART)の手法を用いて一般的に構築されている。
本稿では,CART法を用いて構築した回帰木の統計的特性について検討する。
- 参考スコア(独自算出の注目度): 18.351254916713305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision trees with binary splits are popularly constructed using
Classification and Regression Trees (CART) methodology. For regression models,
this approach recursively divides the data into two near-homogenous daughter
nodes according to a split point that maximizes the reduction in sum of squares
error (the impurity) along a particular variable. This paper aims to study the
statistical properties of regression trees constructed with CART methodology.
In doing so, we find that the training error is governed by the Pearson
correlation between the optimal decision stump and response data in each node,
which we bound by constructing a prior distribution on the split points and
solving a nonlinear optimization problem. We leverage this connection between
the training error and Pearson correlation to show that CART with
cost-complexity pruning achieves an optimal complexity/goodness-of-fit tradeoff
when the depth scales with the logarithm of the sample size. Data dependent
quantities, which adapt to the dimensionality and latent structure of the
regression model, are seen to govern the rates of convergence of the prediction
error.
- Abstract(参考訳): 二元分割を持つ決定木は、分類と回帰木(cart)の方法論を用いて一般に構築される。
回帰モデルの場合、このアプローチは、特定の変数に沿って二乗誤差(不純物)の和を最大化する分割点に従って、データを2つのホモ固有娘ノードに再帰的に分割する。
本稿では,CART法を用いて構築した回帰木の統計的特性について検討する。
そこで,各ノードにおける最適決定切り株と応答データとのピアソン相関によって学習誤差が制御され,分割点上の事前分布を構築し,非線形最適化問題の解法によって境界付けられた。
我々は, トレーニング誤差とピアソン相関の関係を利用して, 試料径の対数スケールでCARTが最適に複雑かつ良質なトレードオフを達成できることを示す。
回帰モデルの次元と潜在構造に適応するデータ依存量は、予測誤差の収束率を制御していると考えられる。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Theoretical Insights into CycleGAN: Analyzing Approximation and Estimation Errors in Unpaired Data Generation [0.5735035463793009]
我々は、CycleGANと呼ばれる未ペアデータ生成モデルの過大なリスクを分析することに重点を置いている。
古典的なGANとは異なり、CycleGANは2つの障害のない分布間でデータを変換するだけでなく、マッピングの一貫性を保証する。
モデルアーキテクチャとトレーニング手順の両方の影響を考慮すると、リスクは近似誤差と推定誤差の2つの項に分解される。
論文 参考訳(メタデータ) (2024-07-16T12:53:53Z) - Statistical Advantages of Oblique Randomized Decision Trees and Forests [0.0]
リッジ関数のフレキシブル次元縮小モデルクラスに対して一般化誤差と収束率を求める。
軸方向のモンドリアン木のリスクに対する低い境界は、これらの線形次元減少モデルに対してこれらの推定値が最適であることを示す。
論文 参考訳(メタデータ) (2024-07-02T17:35:22Z) - A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds [9.546094657606178]
本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
論文 参考訳(メタデータ) (2021-10-18T21:22:40Z) - Piecewise linear regression and classification [0.20305676256390928]
本稿では,線形予測器を用いた多変量回帰と分類問題の解法を提案する。
本論文で記述されたアルゴリズムのpython実装は、http://cse.lab.imtlucca.it/bemporad/parcで利用可能である。
論文 参考訳(メタデータ) (2021-03-10T17:07:57Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。