論文の概要: Superfast Selection for Decision Tree Algorithms
- arxiv url: http://arxiv.org/abs/2405.20622v2
- Date: Tue, 4 Jun 2024 02:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 10:40:04.651628
- Title: Superfast Selection for Decision Tree Algorithms
- Title(参考訳): 決定木アルゴリズムの超高速選択
- Authors: Huaduo Wang, Gopal Gupta,
- Abstract要約: 最適分割」を選択するための,超高速選択という,新しい体系的手法を提案する。
この方法は、時間的複雑さを減らし、単一機能の分割選択を高速化する。
実験によると、UDTは1秒以内にKDD99-10%データセット(41のフィーチャを持つ494Kのサンプル)で1回のトレーニングを終えることができる。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a novel and systematic method, called Superfast Selection, for selecting the "optimal split" for decision tree and feature selection algorithms over tabular data. The method speeds up split selection on a single feature by lowering the time complexity, from O(MN) (using the standard selection methods) to O(M), where M represents the number of input examples and N the number of unique values. Additionally, the need for pre-encoding, such as one-hot or integer encoding, for feature value heterogeneity is eliminated. To demonstrate the efficiency of Superfast Selection, we empower the CART algorithm by integrating Superfast Selection into it, creating what we call Ultrafast Decision Tree (UDT). This enhancement enables UDT to complete the training process with a time complexity O(KM$^2$) (K is the number of features). Additionally, the Training Only Once Tuning enables UDT to avoid the repetitive training process required to find the optimal hyper-parameter. Experiments show that the UDT can finish a single training on KDD99-10% dataset (494K examples with 41 features) within 1 second and tuning with 214.8 sets of hyper-parameters within 0.25 second on a laptop.
- Abstract(参考訳): 本稿では,決定ツリーの「最適分割」と表データ上の特徴選択アルゴリズムを選択するための,Superfast Selectionと呼ばれる新奇で体系的な手法を提案する。
この方法は、O(MN) から O(M) へ、M は入力例の数を表し、N はユニークな値の数を表す。
さらに、特徴値の不均一性に対する1ホットや整数エンコーディングのようなプリエンコーディングの必要性も排除される。
超高速選択の効率性を示すために,超高速選択を組み込んで超高速決定木(UDT)と呼ばれるものを作成することにより,CARTアルゴリズムの強化を図る。
この拡張により、UTTは時間複雑性O(KM$^2$)でトレーニングプロセスを完了できる(Kは特徴数である)。
さらに、トレーニングのみ チューニングにより、UDTは最適なハイパーパラメータを見つけるのに必要な反復的なトレーニングプロセスを避けることができる。
実験の結果、UTTは1秒以内にKDD99-10%データセット(41個の特徴を持つ494Kの例)で1回のトレーニングを完了し、ラップトップで0.25秒以内に214.8のハイパーパラメータセットでチューニングできることが示されている。
関連論文リスト
- Multi-objective Binary Coordinate Search for Feature Selection [0.24578723416255746]
大規模特徴選択問題の解法として,二元多目的座標探索(MOCS)アルゴリズムを提案する。
その結果,実世界の5つの大規模データセットにおいて,NSGA-IIよりも提案手法が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-02-20T00:50:26Z) - Towards A Flexible Accuracy-Oriented Deep Learning Module Inference Latency Prediction Framework for Adaptive Optimization Algorithms [0.49157446832511503]
本稿では,ディープラーニングモジュール推論遅延予測フレームワークを提案する。
DNNモジュールごとに複数のRMをトレーニングするために、カスタマイズ可能な入力パラメータのセットをホストする。
トレーニングされたRMのセットを自動的に選択し、全体的な予測精度が最高になる。
論文 参考訳(メタデータ) (2023-12-11T15:15:48Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - OptABC: an Optimal Hyperparameter Tuning Approach for Machine Learning
Algorithms [1.6114012813668934]
OptABCは、ABCアルゴリズムがほぼ最適解へのより高速な収束を支援するために提案されている。
OptABCは、人工蜂コロニーアルゴリズム、K-Meansクラスタリング、greedyアルゴリズム、および反対ベースの学習戦略を統合している。
実験結果から,OptABCの有効性が文献の既存手法と比較された。
論文 参考訳(メタデータ) (2021-12-15T22:33:39Z) - Learning to Efficiently Sample from Diffusion Probabilistic Models [49.58748345998702]
Denoising Diffusion Probabilistic Models (DDPM) は、様々な領域にわたる高忠実度サンプルと競合する対数類似度が得られる。
我々は,事前学習したDDPMに対して最適な離散時間スケジュールを求める,正確な動的プログラミングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T17:15:07Z) - Quick and Robust Feature Selection: the Strength of Energy-efficient
Sparse Training for Autoencoders [4.561081324313315]
データセットの最も重要な属性を識別する機能選択は、この問題の解決策として導入されている。
既存の特徴選択法のほとんどは、計算的に非効率である。
本稿では,教師なし特徴選択のための新しいフレキシブルな手法を提案する。
論文 参考訳(メタデータ) (2020-12-01T15:05:15Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Feature Selection Methods for Cost-Constrained Classification in Random
Forests [3.4806267677524896]
コストに敏感な特徴選択は、機能選択の問題であり、モデルに含めるための個々のコストを上昇させる。
ランダムフォレスト(Random Forests)は、機能選択において特に困難な問題を定義している。
小木構造から特徴を選択する新しい高速多変量特徴選択法であるShallow Tree Selectionを提案する。
論文 参考訳(メタデータ) (2020-08-14T11:39:52Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。