論文の概要: Permutation Decision Trees
- arxiv url: http://arxiv.org/abs/2306.02617v3
- Date: Fri, 31 May 2024 11:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 20:51:10.866177
- Title: Permutation Decision Trees
- Title(参考訳): 置換決定木
- Authors: Harikrishnan N B, Arham Jain, Nithin Nagaraj,
- Abstract要約: Effort-To-Compress (ETC) は、新しい不純物尺度として初めて複雑性尺度である。
置換決定木と様々な実世界のデータセットにおける古典的決定木の性能比較を行う。
- 参考スコア(独自算出の注目度): 3.089408984959925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision Tree is a well understood Machine Learning model that is based on minimizing impurities in the internal nodes. The most common impurity measures are Shannon entropy and Gini impurity. These impurity measures are insensitive to the order of training data and hence the final tree obtained is invariant to any permutation of the data. This is a limitation in terms of modeling when there are temporal order dependencies between data instances. In this research, we propose the adoption of Effort-To-Compress (ETC) - a complexity measure, for the first time, as an alternative impurity measure. Unlike Shannon entropy and Gini impurity, structural impurity based on ETC is able to capture order dependencies in the data, thus obtaining potentially different decision trees for different permutations of the same data instances, a concept we term as Permutation Decision Trees (PDT). We then introduce the notion of Permutation Bagging achieved using permutation decision trees without the need for random feature selection and sub-sampling. We conduct a performance comparison between Permutation Decision Trees and classical decision trees across various real-world datasets, including Appendicitis, Breast Cancer Wisconsin, Diabetes Pima Indian, Ionosphere, Iris, Sonar, and Wine. Our findings reveal that PDT demonstrates comparable performance to classical decision trees across most datasets. Remarkably, in certain instances, PDT even slightly surpasses the performance of classical decision trees. In comparing Permutation Bagging with Random Forest, we attain comparable performance to Random Forest models consisting of 50 to 1000 trees, using merely 21 trees. This highlights the efficiency and effectiveness of Permutation Bagging in achieving comparable performance outcomes with significantly fewer trees.
- Abstract(参考訳): 決定木(Decision Tree)は、内部ノードにおける不純物を最小限にした、よく理解された機械学習モデルである。
最も一般的な不純物対策はシャノンエントロピーとジーニ不純物である。
これらの不純物対策はトレーニングデータの順序に敏感であるため、得られた最終木はデータの任意の置換に不変である。
これは、データインスタンス間に時間的順序依存性がある場合のモデリングにおける制限である。
本研究では,不純物対策としてEffort-To-Compress(ETC)を初めて導入することを提案する。
シャノンエントロピーやジーニの不純物とは異なり、ETCに基づく構造的不純物はデータの順序依存を捉えることができ、同じデータインスタンスの異なる置換に対する潜在的に異なる決定木を得ることができる。
次に、ランダムな特徴選択やサブサンプリングを必要とせず、置換決定木を用いて達成した置換バギングの概念を導入する。
我々は,アペンディシス,乳がんウィスコンシン,糖尿病ピマ・インディアン,イオノスフェア,アイリス,ソナー,ワインなど,さまざまな実世界のデータセットを対象に,置換決定木と古典的決定木のパフォーマンス比較を行った。
以上の結果から,PDTは従来の決定木に匹敵する性能を示した。
注目すべきは、あるケースでは、PDTは古典的な決定木のパフォーマンスをわずかに上回っていることだ。
Permutation BaggingとRandom Forestを比較すると、たった21本の木を使って、50から1000本の木からなるランダムフォレストモデルに匹敵するパフォーマンスが得られる。
これは、非常に少ないツリーで同等のパフォーマンスの成果を達成する上で、Permutation Baggingの効率性と有効性を強調している。
関連論文リスト
- Terminating Differentiable Tree Experts [77.2443883991608]
本稿では,変圧器と表現生成器の組み合わせを用いて木操作を学習するニューラルシンボリック微分木機械を提案する。
まず、専門家の混在を導入することで、各ステップで使用される一連の異なるトランスフォーマーレイヤを取り除きます。
また,モデルが自動生成するステップ数を選択するための新しい終端アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:45:38Z) - Learning accurate and interpretable decision trees [27.203303726977616]
我々は、同じドメインから繰り返しデータにアクセスして決定木学習アルゴリズムを設計するためのアプローチを開発する。
本研究では,ベイズ決定木学習における事前パラメータのチューニングの複雑さについて検討し,その結果を決定木回帰に拡張する。
また、学習した決定木の解釈可能性について検討し、決定木を用いた説明可能性と精度のトレードオフを最適化するためのデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-24T20:10:10Z) - Learning a Decision Tree Algorithm with Transformers [80.49817544396379]
本稿では,従来のアルゴリズムから出力されたフィルタを用いてトランスフォーマーモデルを用いて,分類のための強力な決定木を生成するメタトレーについて紹介する。
次にMetaTreeをトレーニングして、強力な一般化パフォーマンスを実現するツリーを生成します。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - Bayesian Decision Trees via Tractable Priors and Probabilistic
Context-Free Grammars [7.259767735431625]
ベイズ決定木を学習するための新しい基準を提案する。
BCART-PCFGは、データから得られる木々間の後部分布から決定木を効率的にサンプリングすることができる。
BCART-PCFGで採取した木は、優雅に構築された決定木に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-02-15T00:17:41Z) - Regularized impurity reduction: Accurate decision trees with complexity
guarantees [20.170305081348328]
本稿では,木複雑性の対数近似を保証する木推論アルゴリズムを提案する。
改良されたアルゴリズムは予測精度と木の複雑さのバランスが良好である。
論文 参考訳(メタデータ) (2022-08-23T13:15:19Z) - Hierarchical Shrinkage: improving the accuracy and interpretability of
tree-based methods [10.289846887751079]
木構造を改変しないポストホックアルゴリズムである階層収縮(Hierarchical Shrinkage, HS)を導入する。
HSは、他の正規化技術と併用しても、決定木の予測性能を大幅に向上させる。
すべてのコードとモデルはGithubにある本格的なパッケージでリリースされている。
論文 参考訳(メタデータ) (2022-02-02T02:43:23Z) - Optimal randomized classification trees [0.0]
分類と回帰木(英: Classification and Regression Trees、CART)は、現代の統計学と機械学習における既成の技術である。
CARTはgreedyプロシージャによって構築され、分割予測変数と関連するしきい値を逐次決定する。
この強欲なアプローチは、木を非常に高速に木に分類するが、その性質上、それらの分類精度は他の最先端の手順と競合しないかもしれない。
論文 参考訳(メタデータ) (2021-10-19T11:41:12Z) - Robustifying Algorithms of Learning Latent Trees with Vector Variables [92.18777020401484]
Recursive Grouping (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑性について述べる。
RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。
我々は、潜在木の構造学習において、最初の既知のインスタンス依存の不合理性の結果を導出する。
論文 参考訳(メタデータ) (2021-06-02T01:37:52Z) - SGA: A Robust Algorithm for Partial Recovery of Tree-Structured
Graphical Models with Noisy Samples [75.32013242448151]
ノードからの観測が独立しているが非識別的に分散ノイズによって破損した場合、Ising Treeモデルの学習を検討する。
Katiyarら。
(2020) は, 正確な木構造は復元できないが, 部分木構造を復元できることを示した。
統計的に堅牢な部分木回復アルゴリズムであるSymmetrized Geometric Averaging(SGA)を提案する。
論文 参考訳(メタデータ) (2021-01-22T01:57:35Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - Convex Polytope Trees [57.56078843831244]
コンベックスポリトープ木(CPT)は、決定境界の解釈可能な一般化によって決定木の系統を拡張するために提案される。
木構造が与えられたとき,木パラメータに対するCPTおよび拡張性のあるエンドツーエンドトレーニングアルゴリズムを効率的に構築する。
論文 参考訳(メタデータ) (2020-10-21T19:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。