論文の概要: Trees, Forests, Chickens, and Eggs: When and Why to Prune Trees in a
Random Forest
- arxiv url: http://arxiv.org/abs/2103.16700v1
- Date: Tue, 30 Mar 2021 21:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 07:24:58.645914
- Title: Trees, Forests, Chickens, and Eggs: When and Why to Prune Trees in a
Random Forest
- Title(参考訳): 樹木, 森林, ニワトリ, 卵: ランダム林における樹冠形成の時期と理由
- Authors: Siyu Zhou and Lucas Mentch
- Abstract要約: 木深度はプロセス全体にわたって自然な正規化の形式と見なされるべきである。
特に,データの信号対雑音比が低ければ,樹木が浅いランダムな森林が有利であることが示唆された。
- 参考スコア(独自算出の注目度): 8.513154770491898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to their long-standing reputation as excellent off-the-shelf predictors,
random forests continue remain a go-to model of choice for applied
statisticians and data scientists. Despite their widespread use, however, until
recently, little was known about their inner-workings and about which aspects
of the procedure were driving their success. Very recently, two competing
hypotheses have emerged -- one based on interpolation and the other based on
regularization. This work argues in favor of the latter by utilizing the
regularization framework to reexamine the decades-old question of whether
individual trees in an ensemble ought to be pruned. Despite the fact that
default constructions of random forests use near full depth trees in most
popular software packages, here we provide strong evidence that tree depth
should be seen as a natural form of regularization across the entire procedure.
In particular, our work suggests that random forests with shallow trees are
advantageous when the signal-to-noise ratio in the data is low. In building up
this argument, we also critique the newly popular notion of "double descent" in
random forests by drawing parallels to U-statistics and arguing that the
noticeable jumps in random forest accuracy are the result of simple averaging
rather than interpolation.
- Abstract(参考訳): 優れた棚から外れた予測者としての長年の評判から、無作為な森林は依然として応用統計学者やデータ科学者にとって選択肢のモデルとなっている。
しかし、近年まで広く使われているにもかかわらず、彼らの内面的な作業についてはほとんど知られていなかった。
最近になって、補間に基づく仮説と正規化に基づく仮説が2つ出現した。
この研究は、正規化フレームワークを利用して、アンサンブル内の個々の木を刈り取るべきかどうかという数十年前の疑問を再検討することで後者を支持する。
ランダムな森林のデフォルト構造は、ほとんどの一般的なソフトウェアパッケージにおいて、ほぼ全深度木を用いるという事実にもかかわらず、ここでは、木深度が手順全体にわたって自然な正規化の形式と見なされるべきであることを示す強力な証拠を提供する。
特に,データ中の信号-雑音比が低い場合,浅葉の無作為林が有利であることが示唆された。
また,本論文では,ランダム林における「二重降下」という新たな概念を,u-統計に平行して描くことで批判し,ランダム林の精度の明らかなジャンプは補間よりも単純な平均化の結果であると主張する。
関連論文リスト
- Randomization Can Reduce Both Bias and Variance: A Case Study in Random
Forests [19.553278430819308]
我々は、しばしば見落とされがちな現象について研究し、最初はカテブレイマン2001randomで指摘され、ランダムな森林は、バッグングに比べて偏見を減らしているように見える。
論文 参考訳(メタデータ) (2024-02-20T02:36:26Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - Improving the Accuracy and Interpretability of Random Forests via Forest
Pruning [0.0]
本稿では,ランダム林の精度と決定木の解釈可能性という,両世界を最大限に活用することを目的としたポストホックアプローチを提案する。
森林伐採手法を2つ提案し, 適度な森林を適度に選抜し, 選択した樹木を1つにまとめる。
論文 参考訳(メタデータ) (2024-01-10T20:02:47Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Accelerating Generalized Random Forests with Fixed-Point Trees [2.810283834703862]
適応的なカーネル重み付けアルゴリズムとしてランダムフォレストを利用する。
固定点反復型近似から誘導される一般化ランダム林に対する新しい木成長則を提案する。
論文 参考訳(メタデータ) (2023-06-20T21:45:35Z) - Contextual Decision Trees [62.997667081978825]
学習アンサンブルの1つの浅い木を特徴量ベースで選択するための,マルチアームのコンテキスト付きバンドレコメンデーションフレームワークを提案する。
トレーニングされたシステムはランダムフォレスト上で動作し、最終的な出力を提供するためのベース予測器を動的に識別する。
論文 参考訳(メタデータ) (2022-07-13T17:05:08Z) - Random Forest Weighted Local Fr\'echet Regression with Random Objects [52.25304029942005]
本稿では,新しいランダム森林重み付き局所Fr'echet回帰パラダイムを提案する。
最初の方法は,これらの重みを局所平均として利用し,条件付きFr'echet平均を解く。
第二の手法は局所線形Fr'echet回帰を行い、どちらも既存のFr'echet回帰法を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-10T09:10:59Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - An Efficient Adversarial Attack for Tree Ensembles [91.05779257472675]
傾斜促進決定木(DT)や無作為林(RF)などの木に基づくアンサンブルに対する敵対的攻撃
提案手法は,従来のMILP (Mixed-integer linear programming) よりも数千倍高速であることを示す。
私たちのコードはhttps://chong-z/tree-ensemble- attackで利用可能です。
論文 参考訳(メタデータ) (2020-10-22T10:59:49Z) - Fr\'echet random forests for metric space valued regression with non
euclidean predictors [0.0]
我々はFr'echet木とFr'echetランダムフォレストを導入し、入力変数と出力変数が一般的な距離空間で値を取るデータを処理する。
データ駆動分割を用いたFr'echet回帰図予測器の一貫性定理をFr'echetの純粋にランダムな木に適用する。
論文 参考訳(メタデータ) (2019-06-04T22:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。