論文の概要: Trees, Forests, Chickens, and Eggs: When and Why to Prune Trees in a
Random Forest
- arxiv url: http://arxiv.org/abs/2103.16700v1
- Date: Tue, 30 Mar 2021 21:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 07:24:58.645914
- Title: Trees, Forests, Chickens, and Eggs: When and Why to Prune Trees in a
Random Forest
- Title(参考訳): 樹木, 森林, ニワトリ, 卵: ランダム林における樹冠形成の時期と理由
- Authors: Siyu Zhou and Lucas Mentch
- Abstract要約: 木深度はプロセス全体にわたって自然な正規化の形式と見なされるべきである。
特に,データの信号対雑音比が低ければ,樹木が浅いランダムな森林が有利であることが示唆された。
- 参考スコア(独自算出の注目度): 8.513154770491898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to their long-standing reputation as excellent off-the-shelf predictors,
random forests continue remain a go-to model of choice for applied
statisticians and data scientists. Despite their widespread use, however, until
recently, little was known about their inner-workings and about which aspects
of the procedure were driving their success. Very recently, two competing
hypotheses have emerged -- one based on interpolation and the other based on
regularization. This work argues in favor of the latter by utilizing the
regularization framework to reexamine the decades-old question of whether
individual trees in an ensemble ought to be pruned. Despite the fact that
default constructions of random forests use near full depth trees in most
popular software packages, here we provide strong evidence that tree depth
should be seen as a natural form of regularization across the entire procedure.
In particular, our work suggests that random forests with shallow trees are
advantageous when the signal-to-noise ratio in the data is low. In building up
this argument, we also critique the newly popular notion of "double descent" in
random forests by drawing parallels to U-statistics and arguing that the
noticeable jumps in random forest accuracy are the result of simple averaging
rather than interpolation.
- Abstract(参考訳): 優れた棚から外れた予測者としての長年の評判から、無作為な森林は依然として応用統計学者やデータ科学者にとって選択肢のモデルとなっている。
しかし、近年まで広く使われているにもかかわらず、彼らの内面的な作業についてはほとんど知られていなかった。
最近になって、補間に基づく仮説と正規化に基づく仮説が2つ出現した。
この研究は、正規化フレームワークを利用して、アンサンブル内の個々の木を刈り取るべきかどうかという数十年前の疑問を再検討することで後者を支持する。
ランダムな森林のデフォルト構造は、ほとんどの一般的なソフトウェアパッケージにおいて、ほぼ全深度木を用いるという事実にもかかわらず、ここでは、木深度が手順全体にわたって自然な正規化の形式と見なされるべきであることを示す強力な証拠を提供する。
特に,データ中の信号-雑音比が低い場合,浅葉の無作為林が有利であることが示唆された。
また,本論文では,ランダム林における「二重降下」という新たな概念を,u-統計に平行して描くことで批判し,ランダム林の精度の明らかなジャンプは補間よりも単純な平均化の結果であると主張する。
関連論文リスト
- Exogenous Randomness Empowering Random Forests [4.396860522241306]
平均二乗誤差(MSE)を個々の木と森林の両方に対して非漸近展開する。
以上の結果から,サブサンプリングは個々の樹木に比べて,ランダム林の偏りや分散を減少させることが明らかとなった。
ノイズ特性の存在は、ランダムな森林の性能を高める上で「祝福」として機能する。
論文 参考訳(メタデータ) (2024-11-12T05:06:10Z) - Alpha-Trimming: Locally Adaptive Tree Pruning for Random Forests [0.8192907805418583]
急激な伐採アルゴリズムであるアルファトリミングは、ランダムな森林の伐採に有効な手法として提案されている。
アルファトリミングの顕著な特徴は、そのチューニングパラメータが、一度木が完全に成長した後に、ランダムな森で木を適合させることなく調整できることである。
論文 参考訳(メタデータ) (2024-08-13T18:41:09Z) - Ensembles of Probabilistic Regression Trees [46.53457774230618]
木に基づくアンサンブル法は多くの応用や研究で回帰問題に成功している。
本研究では,確率分布に関する各領域の観察を割り当てることで,目的関数のスムーズな近似を提供する確率回帰木のアンサンブルバージョンについて検討する。
論文 参考訳(メタデータ) (2024-06-20T06:51:51Z) - Forecasting with Hyper-Trees [50.72190208487953]
Hyper-Treesは時系列モデルのパラメータを学習するために設計されている。
対象とする時系列モデルのパラメータを特徴に関連付けることで、Hyper-Treesはパラメータ非定常性の問題にも対処する。
この新しいアプローチでは、木はまず入力特徴から情報表現を生成し、浅いネットワークはターゲットモデルパラメータにマップする。
論文 参考訳(メタデータ) (2024-05-13T15:22:15Z) - Randomization Can Reduce Both Bias and Variance: A Case Study in Random Forests [16.55139316146852]
我々は、しばしば見落とされがちな現象について研究し、最初はカテブレイマン2001randomで指摘され、ランダムな森林は、バッグングに比べて偏見を減らしているように見える。
論文 参考訳(メタデータ) (2024-02-20T02:36:26Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - Theoretical and Empirical Advances in Forest Pruning [0.0]
回帰林の精度と回帰樹の解釈可能性という両世界の最善を尽くすアプローチである森林伐採を再考する。
我々は、非常に弱い仮定の下で、未伐採林に対するラッソ伐採林の利点を証明した。
テストされたほとんどのシナリオでは、森林伐採法が1つ以上あり、原生林と同等かそれ以上の精度が得られていることがわかった。
論文 参考訳(メタデータ) (2024-01-10T20:02:47Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Contextual Decision Trees [62.997667081978825]
学習アンサンブルの1つの浅い木を特徴量ベースで選択するための,マルチアームのコンテキスト付きバンドレコメンデーションフレームワークを提案する。
トレーニングされたシステムはランダムフォレスト上で動作し、最終的な出力を提供するためのベース予測器を動的に識別する。
論文 参考訳(メタデータ) (2022-07-13T17:05:08Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - Fr\'echet random forests for metric space valued regression with non
euclidean predictors [0.0]
我々はFr'echet木とFr'echetランダムフォレストを導入し、入力変数と出力変数が一般的な距離空間で値を取るデータを処理する。
データ駆動分割を用いたFr'echet回帰図予測器の一貫性定理をFr'echetの純粋にランダムな木に適用する。
論文 参考訳(メタデータ) (2019-06-04T22:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。