論文の概要: Theoretical and Empirical Advances in Forest Pruning
- arxiv url: http://arxiv.org/abs/2401.05535v3
- Date: Sun, 22 Sep 2024 16:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 05:28:28.154011
- Title: Theoretical and Empirical Advances in Forest Pruning
- Title(参考訳): 森林伐採の理論的・実証的研究
- Authors: Albert Dorador,
- Abstract要約: 回帰林の精度と回帰樹の解釈可能性という両世界の最善を尽くすアプローチである森林伐採を再考する。
我々は、非常に弱い仮定の下で、未伐採林に対するラッソ伐採林の利点を証明した。
テストされたほとんどのシナリオでは、森林伐採法が1つ以上あり、原生林と同等かそれ以上の精度が得られていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Decades after their inception, regression forests continue to provide state-of-the-art accuracy, outperforming in this respect alternative machine learning models such as regression trees or even neural networks. However, being an ensemble method, the one aspect where regression forests tend to severely underperform regression trees is interpretability. In the present work, we revisit forest pruning, an approach that aims to have the best of both worlds: the accuracy of regression forests and the interpretability of regression trees. This pursuit, whose foundation lies at the core of random forest theory, has seen vast success in empirical studies. In this paper, we contribute theoretical results that support and qualify those empirical findings; namely, we prove the asymptotic advantage of a Lasso-pruned forest over its unpruned counterpart under extremely weak assumptions, as well as high-probability finite-sample generalization bounds for regression forests pruned according to the main methods, which we then validate by way of simulation. Then, we test the accuracy of pruned regression forests against their unpruned counterparts on 19 different datasets (16 synthetic, 3 real). We find that in the vast majority of scenarios tested, there is at least one forest-pruning method that yields equal or better accuracy than the original full forest (in expectation), while just using a small fraction of the trees. We show that, in some cases, the reduction in the size of the forest is so dramatic that the resulting sub-forest can be meaningfully merged into a single tree, obtaining a level of interpretability that is qualitatively superior to that of the original regression forest, which remains a black box.
- Abstract(参考訳): 開始から数十年後、レグレッション・フォレストは最先端の精度を提供し続けており、この点において、レグレッション・ツリーやニューラルネットワークのような代替機械学習モデルよりも優れています。
しかし、アンサンブル手法であるレグレッション・フォレストは、レグレッション・ツリーを著しく過小評価する傾向にある。
本研究は,回帰林の精度と回帰樹の解釈可能性という,両世界を最大限に活用するアプローチである森林伐採を再考するものである。
この追求はランダム森林理論の核心にあるが、経験的研究において大きな成功を収めている。
本稿では,これらの経験的知見を裏付け,検証する理論的な結果,すなわち,非常に弱い仮定のもとに,未開林に対するラッソ刈り林の漸近的優位性を証明し,また,本手法により刈り取られた回帰林に対する高確率有限サンプル一般化境界を検証し,シミュレーションにより検証する。
次に,19の異なるデータセット (合成, 3実) 上で, 未伐採林と比較し, 伐採林の精度を検証した。
テストされたほとんどのシナリオでは、少なくとも1つの森林伐採方法があり、それは元の森林(予想通り)と同等かそれ以上の精度が得られる。
その結果,森林面積の減少が劇的であり,結果として得られた亜熱帯林を1本木に有意にマージし,原生林よりも質的に優れた解釈可能性を得ることができた。
関連論文リスト
- Exogenous Randomness Empowering Random Forests [4.396860522241306]
平均二乗誤差(MSE)を個々の木と森林の両方に対して非漸近展開する。
以上の結果から,サブサンプリングは個々の樹木に比べて,ランダム林の偏りや分散を減少させることが明らかとなった。
ノイズ特性の存在は、ランダムな森林の性能を高める上で「祝福」として機能する。
論文 参考訳(メタデータ) (2024-11-12T05:06:10Z) - Ensembles of Probabilistic Regression Trees [46.53457774230618]
木に基づくアンサンブル法は多くの応用や研究で回帰問題に成功している。
本研究では,確率分布に関する各領域の観察を割り当てることで,目的関数のスムーズな近似を提供する確率回帰木のアンサンブルバージョンについて検討する。
論文 参考訳(メタデータ) (2024-06-20T06:51:51Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - ForensicsForest Family: A Series of Multi-scale Hierarchical Cascade Forests for Detecting GAN-generated Faces [53.739014757621376]
我々は,GAN生成顔を検出するために,EmforensicsForest Familyと呼ばれる簡易かつ効果的な森林法について述べる。
ForenscisForestは、新しく提案された多層階層のカスケード林である。
Hybrid ForensicsForestはCNNレイヤをモデルに統合する。
Divide-and-Conquer ForensicsForestは、トレーニングサンプリングの一部のみを使用して、森林モデルを構築することができる。
論文 参考訳(メタデータ) (2023-08-02T06:41:19Z) - Neuroevolution-based Classifiers for Deforestation Detection in Tropical
Forests [62.997667081978825]
森林破壊や荒廃により、毎年何百万ヘクタールもの熱帯林が失われる。
監視・森林破壊検知プログラムは、犯罪者の予防・処罰のための公共政策に加えて、使用されている。
本稿では,熱帯林の森林破壊検出作業におけるニューロ進化技術(NEAT)に基づくパターン分類器の利用を提案する。
論文 参考訳(メタデータ) (2022-08-23T16:04:12Z) - What Makes Forest-Based Heterogeneous Treatment Effect Estimators Work? [1.1050303097572156]
両手法がL2損失下で同じパラメータと共起仮定で理解可能であることを示す。
ランダム化環境では、両方のアプローチはベンチマーク研究で新しいブレンドバージョンと同様に実行された。
論文 参考訳(メタデータ) (2022-06-21T12:45:07Z) - Trees, Forests, Chickens, and Eggs: When and Why to Prune Trees in a
Random Forest [8.513154770491898]
木深度はプロセス全体にわたって自然な正規化の形式と見なされるべきである。
特に,データの信号対雑音比が低ければ,樹木が浅いランダムな森林が有利であることが示唆された。
論文 参考訳(メタデータ) (2021-03-30T21:57:55Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - Stochastic Optimization Forests [60.523606291705214]
標準的なランダムな森林アルゴリズムのように予測精度を向上させるために分割するのではなく、分割を選択した木を栽培し、下流の意思決定品質を直接最適化することで、森林決定政策の訓練方法を示す。
概略分割基準は、各候補分割に対して正確に最適化された森林アルゴリズムに近い性能を保ちながら、100倍のランニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-08-17T16:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。