論文の概要: BooleanOCT: Optimal Classification Trees based on multivariate Boolean
Rules
- arxiv url: http://arxiv.org/abs/2401.16133v1
- Date: Mon, 29 Jan 2024 12:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:53:49.387934
- Title: BooleanOCT: Optimal Classification Trees based on multivariate Boolean
Rules
- Title(参考訳): booleanoct:多変量ブール規則に基づく最適分類木
- Authors: Jiancheng Tu, Wenqi Fan and Zhibin Wu
- Abstract要約: 最適な分類木を導出するために,MIP(Mixed-integer Programming)の定式化を導入する。
提案手法は,F1スコアなどの非線形指標と同様に,精度,バランスの取れた精度,コストに敏感なコストを含む線形メトリクスを統合する。
提案したモデルでは,実世界のデータセットに対して現実的な可解性を示し,数万のサイズの処理を効果的に行う。
- 参考スコア(独自算出の注目度): 14.788278997556606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The global optimization of classification trees has demonstrated considerable
promise, notably in enhancing accuracy, optimizing size, and thereby improving
human comprehensibility. While existing optimal classification trees
substantially enhance accuracy over greedy-based tree models like CART, they
still fall short when compared to the more complex black-box models, such as
random forests. To bridge this gap, we introduce a new mixed-integer
programming (MIP) formulation, grounded in multivariate Boolean rules, to
derive the optimal classification tree. Our methodology integrates both linear
metrics, including accuracy, balanced accuracy, and cost-sensitive cost, as
well as nonlinear metrics such as the F1-score. The approach is implemented in
an open-source Python package named BooleanOCT. We comprehensively benchmark
these methods on the 36 datasets from the UCI machine learning repository. The
proposed models demonstrate practical solvability on real-world datasets,
effectively handling sizes in the tens of thousands. Aiming to maximize
accuracy, this model achieves an average absolute improvement of 3.1\% and
1.5\% over random forests in small-scale and medium-sized datasets,
respectively. Experiments targeting various objectives, including balanced
accuracy, cost-sensitive cost, and F1-score, demonstrate the framework's wide
applicability and its superiority over contemporary state-of-the-art optimal
classification tree methods in small to medium-scale datasets.
- Abstract(参考訳): 分類木のグローバルな最適化は、特に精度を向上し、サイズを最適化し、人間の理解性を向上する上で大きな可能性を証明している。
既存の最適分類木は、カートのような欲望に基づく木モデルよりも精度が大幅に向上するが、ランダムフォレストのようなより複雑なブラックボックスモデルと比較しても、それらは依然として不足している。
このギャップを埋めるために,多変量ブール規則に基づくMIP(mixed-integer Programming)の定式化を導入し,最適分類木を導出する。
提案手法は,F1スコアなどの非線形指標と同様に,精度,バランスの取れた精度,コストに敏感なコストを含む線形メトリクスを統合する。
このアプローチはBooleanOCTというオープンソースのPythonパッケージで実装されている。
UCI機械学習レポジトリの36データセットに対して,これらの手法を総合的にベンチマークした。
提案するモデルは,実世界のデータセット上で実用的可解性を示し,数万のデータセットサイズを効果的に処理する。
精度を最大化するために、このモデルは、小規模および中規模のデータセットにおいて、ランダムな森林に対して平均3.1\%と1.5\%の絶対的な改善を達成する。
バランスのとれた精度、コストに敏感なコスト、およびf1-scoreを含む様々な目的をターゲットにした実験は、小規模から中規模のデータセットにおける現在の最適分類木法に対するフレームワークの幅広い適用性とその優位性を示している。
関連論文リスト
- Decoding-Time Language Model Alignment with Multiple Objectives [88.64776769490732]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - An improved column-generation-based matheuristic for learning
classification trees [9.07661731728456]
決定木は機械学習(ML)における分類問題の解法として高度に解釈可能なモデルである
決定木を訓練するための標準的なMLアルゴリズムは高速だが、精度の点で最適木を生成する。
citefirat 2020column氏は、意思決定木を学習するためのカラムジェネレーションベースのアプローチを提案した。
論文 参考訳(メタデータ) (2023-08-22T14:43:36Z) - Unboxing Tree Ensembles for interpretability: a hierarchical
visualization tool and a multivariate optimal re-built tree [0.34530027457862006]
我々は,木組モデルの解釈可能な表現を開発し,その振る舞いに関する貴重な洞察を提供する。
提案モデルは,木組決定関数を近似した浅い解釈可能な木を得るのに有効である。
論文 参考訳(メタデータ) (2023-02-15T10:43:31Z) - bsnsing: A decision tree induction method based on recursive optimal
boolean rule composition [2.28438857884398]
本稿では,決定木帰納過程における分割規則選択を最適化するMIP(Mixed-integer Programming)の定式化を提案する。
商用の解法よりも高速に実例を解くことができる効率的な探索解法を開発した。
論文 参考訳(メタデータ) (2022-05-30T17:13:57Z) - On multivariate randomized classification trees: $l_0$-based sparsity,
VC~dimension and decomposition methods [0.9346127431927981]
Blanquero et alで提案された非線形連続最適化の定式化について検討する。
我々はまず、$l_0$ノルムの凹凸近似に基づいて、そのような木をスパース化する代替手法を検討する。
より大規模なデータセットを用いた実験により,提案手法は精度を損なうことなく,学習時間を著しく短縮できることが示された。
論文 参考訳(メタデータ) (2021-12-09T22:49:08Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Optimal Decision Trees for Nonlinear Metrics [42.18286681448184]
本稿では,非線形メトリクスに対して最適な木を生成するための新しいアルゴリズムを提案する。
我々の知る限りでは、これは非線形メトリクスに対して証明可能な最適決定木を計算するための最初の方法である。
当社のアプローチは、線形メトリクスの最適化と比較した場合、トレードオフにつながります。
論文 参考訳(メタデータ) (2020-09-15T08:30:56Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - ENTMOOT: A Framework for Optimization over Ensemble Tree Models [57.98561336670884]
ENTMOOTは、ツリーモデルをより大きな最適化問題に統合するためのフレームワークである。
ENTMOOTは、ツリーモデルの意思決定とブラックボックス最適化への単純な統合を可能にしていることを示す。
論文 参考訳(メタデータ) (2020-03-10T14:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。