論文の概要: Simple is better: Making Decision Trees faster using random sampling
- arxiv url: http://arxiv.org/abs/2108.08790v1
- Date: Thu, 19 Aug 2021 17:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:22:32.936631
- Title: Simple is better: Making Decision Trees faster using random sampling
- Title(参考訳): 単純さ:ランダムサンプリングを用いて決定木を高速化する
- Authors: Vignesh Nanda Kumar and Narayanan U Edakunni
- Abstract要約: 近年,ビッグデータ上での堅牢な機械学習モデル構築において,勾配向上決定木が普及している。
理論的および実験的に、ランダムに分割点を均一に選択することは、精度と計算効率の点で、同じあるいはさらに優れた性能を提供することを示す。
- 参考スコア(独自算出の注目度): 4.284674689172996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, gradient boosted decision trees have become popular in
building robust machine learning models on big data. The primary technique that
has enabled these algorithms success has been distributing the computation
while building the decision trees. A distributed decision tree building, in
turn, has been enabled by building quantiles of the big datasets and choosing
the candidate split points from these quantile sets. In XGBoost, for instance,
a sophisticated quantile building algorithm is employed to identify the
candidate split points for the decision trees. This method is often projected
to yield better results when the computation is distributed. In this paper, we
dispel the notion that these methods provide more accurate and scalable methods
for building decision trees in a distributed manner. In a significant
contribution, we show theoretically and empirically that choosing the split
points uniformly at random provides the same or even better performance in
terms of accuracy and computational efficiency. Hence, a simple random
selection of points suffices for decision tree building compared to more
sophisticated methods.
- Abstract(参考訳): 近年,ビッグデータ上での堅牢な機械学習モデル構築において,勾配向上決定木が普及している。
これらのアルゴリズムを成功させた主要なテクニックは、決定木を構築しながら計算を分散させることである。
分散決定木構築は、大きなデータセットの量子化を構築し、これらの量子化集合から候補分割点を選択することで実現されている。
例えば、xgboostでは、決定木の候補分割点を特定するために洗練された質的構築アルゴリズムが用いられる。
この方法は、計算が分散されたときにより良い結果が得られるようにしばしば投影される。
本稿では,これらの手法が,意思決定木を分散的に構築する上で,より正確かつスケーラブルな手法を提供するという考えを捨てる。
有意な貢献として,ランダムにスプリットポイントを選択することで,精度や計算効率の面で同等かそれ以上の性能が得られることを理論的に実証的に示した。
したがって、単純なランダムな点選択は、より洗練された方法と比較して決定木構築に十分である。
関連論文リスト
- Learning accurate and interpretable decision trees [27.203303726977616]
我々は、同じドメインから繰り返しデータにアクセスして決定木学習アルゴリズムを設計するためのアプローチを開発する。
本研究では,ベイズ決定木学習における事前パラメータのチューニングの複雑さについて検討し,その結果を決定木回帰に拡張する。
また、学習した決定木の解釈可能性について検討し、決定木を用いた説明可能性と精度のトレードオフを最適化するためのデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-24T20:10:10Z) - Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - TreeDQN: Learning to minimize Branch-and-Bound tree [78.52895577861327]
Branch-and-Boundは、Mixed Linear Programsという形で最適化タスクを解決するための便利なアプローチである。
解法の効率は、分割する変数を選択するのに使用される分岐に依存する。
分岐を効率的に学習できる強化学習法を提案する。
論文 参考訳(メタデータ) (2023-06-09T14:01:26Z) - Quant-BnB: A Scalable Branch-and-Bound Method for Optimal Decision Trees
with Continuous Features [5.663538370244174]
本稿では,分岐とバウンド(BnB)に基づく新たな離散最適化手法を提案する。
提案アルゴリズムのQuant-BnBは,様々な実データセット上での浅い最適木に対する既存手法と比較して,大幅な高速化を示す。
論文 参考訳(メタデータ) (2022-06-23T17:19:29Z) - Optimal randomized classification trees [0.0]
分類と回帰木(英: Classification and Regression Trees、CART)は、現代の統計学と機械学習における既成の技術である。
CARTはgreedyプロシージャによって構築され、分割予測変数と関連するしきい値を逐次決定する。
この強欲なアプローチは、木を非常に高速に木に分類するが、その性質上、それらの分類精度は他の最先端の手順と競合しないかもしれない。
論文 参考訳(メタデータ) (2021-10-19T11:41:12Z) - Sample Complexity of Tree Search Configuration: Cutting Planes and
Beyond [98.92725321081994]
最先端の解法は、根底にある木探索アルゴリズムを高速化するために、無数の切削平面技術を統合している。
本研究は,インスタンス分布に合わせて高い性能のカット選択ポリシーを学習するための最初の保証を証明した。
論文 参考訳(メタデータ) (2021-06-08T00:57:59Z) - Dive into Decision Trees and Forests: A Theoretical Demonstration [0.0]
決定木は"divide-and-conquer"の戦略を使用して、入力機能とラベル間の依存性に関する複雑な問題を小さなものに分割します。
近年, 計算広告, 推薦システム, 情報検索などの性能が大幅に向上している。
論文 参考訳(メタデータ) (2021-01-20T16:47:59Z) - Convex Polytope Trees [57.56078843831244]
コンベックスポリトープ木(CPT)は、決定境界の解釈可能な一般化によって決定木の系統を拡張するために提案される。
木構造が与えられたとき,木パラメータに対するCPTおよび拡張性のあるエンドツーエンドトレーニングアルゴリズムを効率的に構築する。
論文 参考訳(メタデータ) (2020-10-21T19:38:57Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Generalized and Scalable Optimal Sparse Decision Trees [56.35541305670828]
様々な目的に対して最適な決定木を生成する手法を提案する。
また,連続変数が存在する場合に最適な結果が得られるスケーラブルなアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-06-15T19:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。