論文の概要: ZTree: A Subgroup Identification Based Decision Tree Learning Framework
- arxiv url: http://arxiv.org/abs/2509.12688v1
- Date: Tue, 16 Sep 2025 05:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.904114
- Title: ZTree: A Subgroup Identification Based Decision Tree Learning Framework
- Title(参考訳): ZTree: サブグループ識別に基づく決定木学習フレームワーク
- Authors: Eric Cheng, Jie Cheng,
- Abstract要約: 本稿では,新しい決定木学習フレームワークZTreeを提案する。
CARTの伝統的な純度に基づく分割を統計学的に原則化されたサブグループ識別に置き換える。
ZTreeは、特に低データレシエーションにおいて、一貫して強力なパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 3.119681354260829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision trees are a commonly used class of machine learning models valued for their interpretability and versatility, capable of both classification and regression. We propose ZTree, a novel decision tree learning framework that replaces CART's traditional purity based splitting with statistically principled subgroup identification. At each node, ZTree applies hypothesis testing (e.g., z-tests, t-tests, Mann-Whitney U, log-rank) to assess whether a candidate subgroup differs meaningfully from the complement. To adjust for the complication of multiple testing, we employ a cross-validation-based approach to determine if further node splitting is needed. This robust stopping criterion eliminates the need for post-pruning and makes the test threshold (z-threshold) the only parameter for controlling tree complexity. Because of the simplicity of the tree growing procedure, once a detailed tree is learned using the most lenient z-threshold, all simpler trees can be derived by simply removing nodes that do not meet the larger z-thresholds. This makes parameter tuning intuitive and efficient. Furthermore, this z-threshold is essentially a p-value, allowing users to easily plug in appropriate statistical tests into our framework without adjusting the range of parameter search. Empirical evaluation on five large-scale UCI datasets demonstrates that ZTree consistently delivers strong performance, especially at low data regimes. Compared to CART, ZTree also tends to grow simpler trees without sacrificing performance. ZTree introduces a statistically grounded alternative to traditional decision tree splitting by leveraging hypothesis testing and a cross-validation approach to multiple testing correction, resulting in an efficient and flexible framework.
- Abstract(参考訳): 決定木(Decision Tree)は、その解釈性と汎用性に価値がある機械学習モデルのクラスであり、分類と回帰の両方が可能である。
我々は,CARTの伝統的な純粋度に基づく分割を統計的に原理化されたサブグループ識別に置き換える,新しい決定木学習フレームワークであるZTreeを提案する。
各ノードにおいて、ZTree は仮説テスト (例: z-tests, t-tests, Mann-Whitney U, log-rank) を適用し、候補部分群が補集合と有意に異なるかどうかを評価する。
複数のテストの複雑さを調整するために、クロスバリデーションベースのアプローチを用いて、さらなるノード分割が必要かどうかを判断する。
この堅牢な停止基準は、後処理の必要性を排除し、テストしきい値(z-threshold)をツリーの複雑さを制御する唯一のパラメータにする。
木の成長手順の単純さのため、より精細な木を最も寛大なz閾値を使って学習すると、すべての単純な木は、より大きなz閾値に満たないノードを単に削除することで引き出すことができる。
これにより、パラメータチューニングは直感的で効率的になる。
さらに、このz-thresholdは本質的にp値であり、パラメータ検索の範囲を調整することなく、適切な統計的テストを簡単にフレームワークにプラグインすることができる。
5つの大規模なUCIデータセットに対する実証的な評価は、ZTreeが一貫して、特に低データレシエーションにおいて、強力なパフォーマンスを実現していることを示している。
CARTと比較すると、ZTreeはパフォーマンスを犠牲にすることなく、より単純な木を成長させる傾向がある。
ZTreeは、仮説テストとクロスバリデーションアプローチを複数のテスト修正に活用することで、従来の決定木分割に代わる統計的に基礎的な代替手段を導入し、効率的で柔軟なフレームワークを生み出した。
関連論文リスト
- Experiments with Optimal Model Trees [2.8391355909797644]
我々は,世界規模で最適なモデル木が,非常に小さな木と競合する精度を達成できることを示した。
また、古典的最適かつ優雅に成長した決定木、ランダムな森林、およびサポートベクターマシンと比較した。
論文 参考訳(メタデータ) (2025-03-17T08:03:47Z) - Learning accurate and interpretable tree-based models [27.203303726977616]
我々は、同じドメインからデータに繰り返しアクセスする木に基づく学習アルゴリズムを設計するためのアプローチを開発する。
本稿では,よく使われるエントロピーとジニ不純物に基づく基準を補間するトップダウンアルゴリズムにおいて,ノード分割基準の新しいパラメータ化クラスを提案する。
我々は、ランダムな森林や傾斜した木など、一般的な木に基づくアンサンブルのチューニングに結果を拡張した。
論文 参考訳(メタデータ) (2024-05-24T20:10:10Z) - Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - Bayesian Decision Trees via Tractable Priors and Probabilistic
Context-Free Grammars [7.259767735431625]
ベイズ決定木を学習するための新しい基準を提案する。
BCART-PCFGは、データから得られる木々間の後部分布から決定木を効率的にサンプリングすることができる。
BCART-PCFGで採取した木は、優雅に構築された決定木に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-02-15T00:17:41Z) - Hierarchical Shrinkage: improving the accuracy and interpretability of
tree-based methods [10.289846887751079]
木構造を改変しないポストホックアルゴリズムである階層収縮(Hierarchical Shrinkage, HS)を導入する。
HSは、他の正規化技術と併用しても、決定木の予測性能を大幅に向上させる。
すべてのコードとモデルはGithubにある本格的なパッケージでリリースされている。
論文 参考訳(メタデータ) (2022-02-02T02:43:23Z) - Robustifying Algorithms of Learning Latent Trees with Vector Variables [92.18777020401484]
Recursive Grouping (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑性について述べる。
RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。
我々は、潜在木の構造学習において、最初の既知のインスタンス依存の不合理性の結果を導出する。
論文 参考訳(メタデータ) (2021-06-02T01:37:52Z) - Spectral Top-Down Recovery of Latent Tree Models [13.681975313065477]
スペクトルトップダウン・リカバリ (STDR) は、大きな潜在木モデルを推定するための分割・コンカレントアプローチである。
STDRの分割ステップは非ランダムです。
代わりに、観測されたノードに関連する適切なラプラシア行列のFiedlerベクトルに基づいている。
私達はSTDRが統計的に一貫性があることを証明し、高い確率で木を正確に回復するために必要なサンプルの数を縛ります。
論文 参考訳(メタデータ) (2021-02-26T02:47:42Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - Convex Polytope Trees [57.56078843831244]
コンベックスポリトープ木(CPT)は、決定境界の解釈可能な一般化によって決定木の系統を拡張するために提案される。
木構造が与えられたとき,木パラメータに対するCPTおよび拡張性のあるエンドツーエンドトレーニングアルゴリズムを効率的に構築する。
論文 参考訳(メタデータ) (2020-10-21T19:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。