論文の概要: Improving the Accuracy and Interpretability of Random Forests via Forest
Pruning
- arxiv url: http://arxiv.org/abs/2401.05535v1
- Date: Wed, 10 Jan 2024 20:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 02:10:17.616669
- Title: Improving the Accuracy and Interpretability of Random Forests via Forest
Pruning
- Title(参考訳): 森林伐採によるランダム林の精度と解釈性の向上
- Authors: Albert Dorador
- Abstract要約: 本稿では,ランダム林の精度と決定木の解釈可能性という,両世界を最大限に活用することを目的としたポストホックアプローチを提案する。
森林伐採手法を2つ提案し, 適度な森林を適度に選抜し, 選択した樹木を1つにまとめる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Decades after their inception, random forests continue to provide
state-of-the-art accuracy in a variety of learning problems, outperforming in
this respect alternative machine learning algorithms such as decision trees or
even neural networks. However, being an ensemble method, the one aspect where
random forests tend to severely underperform decision trees is
interpretability. In the present work, we propose a post-hoc approach that aims
to have the best of both worlds: the accuracy of random forests and the
interpretability of decision trees. To this end, we present two forest-pruning
methods to find an optimal sub-forest within a given random forest, and then,
when applicable, combine the selected trees into one. Our first method relies
on constrained exhaustive search, while our second method is based on an
adaptation of the LASSO methodology. Extensive experiments over synthetic and
real world datasets show that, in the majority of scenarios, at least one of
the two methods proposed is more accurate than the original random forest,
while just using a small fraction of the trees, aiding result interpretability.
Compared to current state-of-the-art forestpruning methods, namely sequential
forward selection and (a variation of) sequential backward selection, our
methods tend to outperform both of them, whether in terms of accuracy, number
of trees employed, or both.
- Abstract(参考訳): 開始から数十年後、ランダム森林は様々な学習問題において最先端の精度を提供し続けており、この点で決定木やニューラルネットワークのような代替機械学習アルゴリズムよりも優れている。
しかし、アンサンブル手法として、無作為林が決定木を著しく過小評価する一面が解釈可能である。
本研究は,無作為林の精度と決定木の解釈可能性という両世界を最大限に活用することを目的としたポストホックアプローチを提案する。
そこで本研究では,指定したランダム林内で最適な亜林を見つけるための2つの森林伐採手法を提案し,適用すると,選択した木を1つにまとめる。
第1の方法は制約付き排他探索に依存し,第2の方法はLASSO手法の適応に基づく。
合成と実世界のデータセットに関する広範囲な実験は、ほとんどのシナリオにおいて、提案された2つの方法のうち少なくとも1つが元のランダムフォレストよりも正確であることを示している。
現在の森林伐採法(シーケンシャル・フォワード・セレクションとシーケンシャル・バック・セレクションのバリエーション)と比較すると, 精度, 木数, あるいはその両方において, どちらの方法よりも優れている傾向にある。
関連論文リスト
- Exogenous Randomness Empowering Random Forests [4.396860522241306]
平均二乗誤差(MSE)を個々の木と森林の両方に対して非漸近展開する。
以上の結果から,サブサンプリングは個々の樹木に比べて,ランダム林の偏りや分散を減少させることが明らかとなった。
ノイズ特性の存在は、ランダムな森林の性能を高める上で「祝福」として機能する。
論文 参考訳(メタデータ) (2024-11-12T05:06:10Z) - Ensembles of Probabilistic Regression Trees [46.53457774230618]
木に基づくアンサンブル法は多くの応用や研究で回帰問題に成功している。
本研究では,確率分布に関する各領域の観察を割り当てることで,目的関数のスムーズな近似を提供する確率回帰木のアンサンブルバージョンについて検討する。
論文 参考訳(メタデータ) (2024-06-20T06:51:51Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - ForensicsForest Family: A Series of Multi-scale Hierarchical Cascade Forests for Detecting GAN-generated Faces [53.739014757621376]
我々は,GAN生成顔を検出するために,EmforensicsForest Familyと呼ばれる簡易かつ効果的な森林法について述べる。
ForenscisForestは、新しく提案された多層階層のカスケード林である。
Hybrid ForensicsForestはCNNレイヤをモデルに統合する。
Divide-and-Conquer ForensicsForestは、トレーニングサンプリングの一部のみを使用して、森林モデルを構築することができる。
論文 参考訳(メタデータ) (2023-08-02T06:41:19Z) - Neuroevolution-based Classifiers for Deforestation Detection in Tropical
Forests [62.997667081978825]
森林破壊や荒廃により、毎年何百万ヘクタールもの熱帯林が失われる。
監視・森林破壊検知プログラムは、犯罪者の予防・処罰のための公共政策に加えて、使用されている。
本稿では,熱帯林の森林破壊検出作業におけるニューロ進化技術(NEAT)に基づくパターン分類器の利用を提案する。
論文 参考訳(メタデータ) (2022-08-23T16:04:12Z) - What Makes Forest-Based Heterogeneous Treatment Effect Estimators Work? [1.1050303097572156]
両手法がL2損失下で同じパラメータと共起仮定で理解可能であることを示す。
ランダム化環境では、両方のアプローチはベンチマーク研究で新しいブレンドバージョンと同様に実行された。
論文 参考訳(メタデータ) (2022-06-21T12:45:07Z) - Trees, Forests, Chickens, and Eggs: When and Why to Prune Trees in a
Random Forest [8.513154770491898]
木深度はプロセス全体にわたって自然な正規化の形式と見なされるべきである。
特に,データの信号対雑音比が低ければ,樹木が浅いランダムな森林が有利であることが示唆された。
論文 参考訳(メタデータ) (2021-03-30T21:57:55Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - Stochastic Optimization Forests [60.523606291705214]
標準的なランダムな森林アルゴリズムのように予測精度を向上させるために分割するのではなく、分割を選択した木を栽培し、下流の意思決定品質を直接最適化することで、森林決定政策の訓練方法を示す。
概略分割基準は、各候補分割に対して正確に最適化された森林アルゴリズムに近い性能を保ちながら、100倍のランニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-08-17T16:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。